MetaDE：差分進化による差分進化の進化

進化計算の中核アルゴリズムの一つであるDifferential Evolution（DE）は、そのシンプルさと高い効率性から、ブラックボックス最適化問題に広く利用されてきました。しかしながら、その性能はハイパーパラメータと戦略の選択に大きく依存しており、研究者にとって長年の課題となっています。この課題に対処するため、EvoXチームは最近、*IEEE Transactions on Evolutionary Computation（IEEE TEVC）*に「MetaDE: Evolving Differential Evolution by Differential Evolution」と題する研究を発表しました。DEを活用して自身のハイパーパラメータと戦略を進化させるメタ進化手法として、MetaDEはパラメータと戦略の動的調整を可能にしながら、GPU加速並列計算を組み込んでいます。この設計により、最適化性能とともに計算効率が大幅に向上します。実験結果は、MetaDEがCEC2022ベンチマークスイートとロボット制御タスクの両方で優れた性能を発揮することを示しています。MetaDEのソースコードはGitHubでオープンソースとして公開されています：https://github.com/EMI-Group/metade

背景

進化計算の分野では、アルゴリズムの性能はハイパーパラメータの選択に大きく影響されることが多いです。特定の問題に最適なパラメータ設定を決定することは、長年の研究課題でした。Differential Evolution（DE）は古典的な進化アルゴリズムとして、そのシンプルさと堅牢なグローバル探索能力から広く支持されていますが、その性能はハイパーパラメータの選択に非常に敏感です。従来の手法は通常、経験に基づくチューニングまたは適応メカニズムに依存して性能を改善してきました。しかし、多様な問題シナリオに直面すると、これらのアプローチは効率性と広範な適用性のバランスを取ることに苦労することが多いです。

「メタ進化」の概念は前世紀に既に導入されており、進化アルゴリズム自体を使用してこれらのアルゴリズムのハイパーパラメータ構成を最適化することを目指していました。メタ進化は長年存在していましたが、その実用的な応用は高い計算要求によって制約されてきました。近年のGPUコンピューティングの進歩がこれらの制約を緩和し、進化アルゴリズムに強力なハードウェアサポートを提供しています。特に、分散GPU加速EvoXフレームワークの導入は、GPUベースの進化アルゴリズムの開発を大いに促進しました。このような背景のもと、私たちの研究チームは、DEを活用して自身のハイパーパラメータと戦略を進化させる新しいメタ進化アプローチを提案し、進化アルゴリズムにおける長年のパラメータチューニング問題を解決する新たな道を提供しています。

メタ進化とは何か？

メタ進化の核心的なアイデアは、「進化アルゴリズムを使って自分自身を進化させる」（Evolving an Evolutionary Algorithm by an Evolutionary Algorithm）と要約できます。この概念は、進化アルゴリズムを用いて問題の最適解を探索するだけでなく、アルゴリズム自身の進化プロセスを通じてハイパーパラメータと戦略を適応させることで、従来の進化計算手法を超越しています。

言い換えれば、メタ進化は「自己進化」パラダイムを導入し、アルゴリズムが問題解の探索空間を探索しながら自分自身を最適化することを可能にします。進化プロセスの中で継続的に自己を洗練することで、アルゴリズムはより適応的になり、さまざまな問題シナリオで高い効率を維持できます。

MetaDEを例にとると、その設計はこの哲学に根ざしています。二層構造において、下層（「エグゼキュータ」）はパラメータ化されたDEを使用して与えられた最適化問題を解きます。上層（「エボルバー」）は同時にDEを使用してエグゼキュータのハイパーパラメータ構成を最適化します。このフレームワークにより、DEはソルバーとしてだけでなく、異なる問題をより効果的に解くために自身のパラメータと戦略をどのように調整するのが最善かを「探索」することもできます。このプロセスは、システムが段階的に自分自身を理解し洗練していくことに似ています — **「受動的に問題を解く」から「能動的に自己進化する」**への変革です。その結果、多様なタスクにより良く適応できるようになります。DEを複雑なシステムとみなすならば、MetaDEはこのシステム内で「再帰的」な自己理解と自己改善を効果的に実現しています。

コンピュータサイエンスにおける「再帰」という用語は、通常、自分自身を呼び出す関数やプロシージャを指します。MetaDEにおいて、この概念は新しい意味を持ちます：DEのハイパーパラメータを進化させるためにDEを使用する内部再帰的な最適化メカニズムです。この自己参照的なスキームは、強力な適応性を体現するだけでなく、「ノーフリーランチ」定理に対する新しい視点も提供します。すべての問題に対して普遍的に最適な単一のパラメータセットは存在しないため、アルゴリズムが自律的に自己進化することが、与えられたタスクに最適なパラメータ構成を見つける鍵となります。

この再帰的メタ進化アプローチを通じて、MetaDEはいくつかの利点を達成します：

1. 自動パラメータチューニング

 労力のかかる手動チューニングプロセスが排除されます。アルゴリズム自体がハイパーパラメータの調整方法を学習し、人的介入を減らして効率を向上させます。

2. 適応性の向上

 MetaDEは変化する問題特性や条件に動的に対応し、リアルタイムで戦略を修正してパフォーマンスを改善します。これにより、アルゴリズムの柔軟性が大幅に向上します。

3. 効率的な探索 固有の並列性を活用することで、MetaDEは大規模最適化問題における探索を大幅に加速します。高次元で複雑な問題に対して、合理的な時間枠内で実行可能な解を提供します。

アルゴリズムの実装

MetaDEはテンソルベースの技術とGPU加速を採用し、効率的な並列計算を実現しています。集団の多くの個体を同時に処理することで、全体的な計算効率が著しく向上し、単目的ブラックボックス最適化や大規模最適化問題において特に有利です。主要なパラメータとデータ構造（例：集団、適応度、戦略パラメータ）のテンソル化を通じて、MetaDEはより高い計算効率を達成するだけでなく、複雑な最適化課題に取り組む能力も向上させています。古典的なDEや他の進化アルゴリズム（EA）と比較して、MetaDEは大規模問題の解決において優れた性能を示します。テンソルベースのアプローチにより、MetaDEは計算リソースをより効果的に活用し、従来の手法よりも高速な解の導出とより精密な最適化結果を実現します。

PDEアーキテクチャ

研究チームはまず、パラメータと戦略の変更を完全にサポートするパラメータ化DEアルゴリズムフレームワーク（PDE）を提案しました。このフレームワークでは、FとCRは連続パラメータであり、その他のパラメータは離散的です。破線のボックスは許容されるパラメータ値の範囲を示しています。突然変異関数は、左右のベースベクトルと差分ベクトルの数を制御するパラメータから導出されます。

MetaDEアーキテクチャ

MetaDEは二層構造を採用しており、エボルバー（上層）と複数のエグゼキュータ（下層）で構成されています。エボルバーはDE（または他の進化アルゴリズム）であり、PDEのパラメータを最適化する役割を担います。エボルバーの集団における各個体 x_i は固有のパラメータ構成 θ_i に対応します。これらの構成はPDEに渡され、異なるDEバリアントをインスタンス化し、各エグゼキュータが与えられた最適化タスクで独立して実行します。各エグゼキュータは最良の適応度値 y^* をエボルバーに返し、エボルバーはその適応度値 y_i を対応する個体 x_i に割り当てます。

実験性能

MetaDEの有効性を包括的に評価するため、研究チームは複数のベンチマークテストと実世界のシナリオにわたる体系的な実験を実施しました。各実験では、エボルバー（rand/1/bin戦略のDE）とエグゼキュータ（集団サイズ100のPDE）を使用しました。主要な実験コンポーネントは以下の通りです：

CEC2022ベンチマーク 単目的最適化タスクにおいてMetaDEをさまざまなDEバリアントと比較。

CEC2022上位4アルゴリズムとの比較 同一の関数評価回数（FEs）予算のもとで、CEC2022コンペティションの上位4アルゴリズムに対してMetaDEを評価。

固定実行時間下での関数評価回数（FEs） GPU加速下でのMetaDEの計算効率を分析。

ロボット制御タスク Braxプラットフォーム環境でのロボット制御タスクにMetaDEを適用し、その実用性を検証。

CEC2022ベンチマーク：主流DEバリアントとの比較

チームはCEC2022ベンチマークスイートにおいて、MetaDEをいくつかの代表的なDEバリアントと比較しました：

Standard DE (rand/1/bin)
SaDEおよびJaDE（適応型DEアルゴリズム）
CoDE（戦略統合型DE）
SHADEおよびLSHADE-RSP（成功履歴ベースの適応型DE）
EDEV（統合型DEバリアント）

すべてのアルゴリズムはEvoXプラットフォーム上で実装され、公平性のためにGPU加速と集団サイズ100を使用しました。実験は異なる次元数（10Dおよび20D）で、**同一の計算時間制約（60秒）**のもとで実施されました。

10D CEC2022最適化結果

20D CEC2022最適化結果

MetaDEはほとんどのテスト関数において、より迅速で安定した収束を達成しています。パラメータ化DE（PDE）と上層最適化の組み合わせにより、異なる問題空間への動的適応が可能となり、全体的なロバスト性と探索性能が向上しています。

CEC2022上位4アルゴリズムとの比較（同一FEs条件下）

MetaDEの最適化能力をさらに評価するため、同一の関数評価予算内でCEC2022コンペティションの上位4アルゴリズムと比較しました：

EA4eig：複数のEAを統合したハイブリッド手法
NL-SHADE-LBC：改良型適応DE
NL-SHADE-RSP-MID：中点推定を用いた改良型SHADE
S-LSHADE-DP：動的摂動による集団多様性維持型DEバリアント

これらの各アルゴリズムは、同一のFE制約のもとで公式パラメータ設定とソースコードを使用して実行されました。CEC2022テストスイートにおいて、MetaDEと各ベースラインの間で統計的比較（Wilcoxon順位和検定、有意水準0.05）

が実施されました。表の最後の行は、異なるテスト関数におけるMetaDEに対する各アルゴリズムの性能を示しています：+（有意に優れている）、≈（有意差なし）、−（有意に劣っている）。

10D CEC2022コンペティションアルゴリズムの比較（同一FEs）

20D CEC2022コンペティションアルゴリズムの比較（同一FEs）

MetaDEは一貫して強力な性能を示しており、特にロバストな収束を必要とする複雑な問題で顕著です。その自己適応メカニズムにより、MetaDEは異なる探索ランドスケープに対して効果的に戦略を調整し、探索効率とグローバル最適化能力を向上させています。これらの結果は、MetaDEが主流のDEバリアントを上回るだけでなく、トップレベルのコンペティションアルゴリズムに対しても強い競争力を示すことを示しています。

計算効率：固定時間（60秒）内のFEs

研究チームはさらに、**同一の固定実行時間（60秒）内に異なるアルゴリズムが完了した関数評価回数（FEs）**を記録しました。

図片2.png

       各アルゴリズムが60秒間に達成したFEs

同一のEvoXフレームワークによるGPU加速並列計算のもとで、MetaDEは平均して10⁹レベルのFEsを達成しましたが、従来のDEバリアントは約10^6 FEsにとどまりました。この優位性は、MetaDEのパラメータ化アプローチが個体の大規模並列評価を実施し、より効率的なハードウェアリソースの活用を可能にすることに起因しています。その結果、アルゴリズムは同じ時間枠内でより多くの解を探索し、解の品質と安定性の両方を向上させています。

進化的強化学習：ロボット制御タスク

強化学習（RL）において、ポリシー最適化の効率性と安定性は極めて重要です。PPOやSACなどの勾配ベースの手法は、高次元環境において勾配消失や勾配爆発に悩まされることがあります。これに対し、進化的強化学習（EvoRL）は勾配フリー探索を使用してポリシーパラメータを直接最適化することで、これらの問題を回避します。

進化的強化学習プロセス

EvoRLフレームワーク内で、MetaDEは：

ニューラルネットワークパラメータを自動最適化し、ポリシーモデルの適応性を向上させます。
ハイパーパラメータを動的に調整し、学習の安定性を改善します。
GPU加速を活用してポリシー最適化を高速化します。

複雑な最適化タスクにおけるMetaDEの性能を評価するため、BraxシミュレーションプラットフォームでGPU加速最適化を使用してロボット制御問題に適用しました。研究には3つのタスク — Swimmer、Hopper、Reacher — が含まれ、それぞれ3層全結合ニューラルネットワーク（MLP）でモデル化され、報酬の最大化を目的としています。注目すべきは、各MLPが約1,500パラメータを含み、進化アルゴリズム（EA）にとって1,500次元の最適化課題を生み出していることです。これは探索能力と計算効率の両方に厳しい要件を課します。

3つのBrax環境における収束曲線

図に示されるように、MetaDEはBraxベースのロボット制御タスクにおいて強力な性能を示し、Swimmerタスクで最良の結果を、HopperとReacherでほぼ最適な結果を達成しています。その主な利点は初期集団の品質の高さにあり、早期段階での迅速な収束と高品質な解の生成を可能にしています。これらの知見は、MetaDEがニューラルネットワークポリシーを効率的に最適化でき、複雑な物理シミュレーションを伴うロボット制御タスクに適しており、実用的な応用に幅広い可能性を提供することを示唆しています。

結論と今後の方向性

MetaDEは、最適化タスクの解決に優れるだけでなく、自律的に自身の戦略をチューニングし洗練する革新的なメタ進化アプローチです。Differential Evolutionの強みを活かし、MetaDEは適応的パラメータ構成と戦略進化において強い可能性を示しています。実験結果は、さまざまなベンチマークテストにおける優れたロバスト性を示しており、進化的強化学習によるロボット制御タスクでの成功がその実世界での適用可能性を裏付けています。核心的な課題は、汎化と特化の最適なバランスを維持すること — アルゴリズムが多様なタスクに適応しながら、特定の問題に対しても効果的に最適化できることを保証すること — にあります。この研究は自己適応型進化アルゴリズムに新しい視点を提供し、複雑なシステムにおけるメタ進化のさらなる進歩を促進する可能性があります。

オープンソースコードとコミュニティ

論文: https://arxiv.org/abs/2502.10470

GitHub: https://github.com/EMI-Group/metade

上流プロジェクト (EvoX): https://github.com/EMI-Group/evox

QQグループ: 297969717

QQグループ | Evolving Machine Intelligence

MetaDEはEvoXフレームワーク上に構築されています。EvoXに興味がある方は、EvoX 1.0に関する記事をぜひご覧ください。

(https://mp.weixin.qq.com/s/uT6qSqiWiqevPRRTAVIusQ)