MetaDE：用差分演化來演化差分演化

差分演化（DE）是演化計算中的核心算法之一，因其簡潔性和高效性而被廣泛應用於黑箱最佳化問題。然而，其效能高度依賴於超參數和策略的選擇，這一直是研究人員面臨的持續性難題。為了應對這一挑戰，EvoX 團隊近期在 IEEE Transactions on Evolutionary Computation（IEEE TEVC） 上發表了一項研究，題為「MetaDE: Evolving Differential Evolution by Differential Evolution」。作為一種利用 DE 來演化自身超參數和策略的元演化方法，MetaDE 能夠動態調整參數和策略，同時結合 GPU 加速的平行運算。這一設計在提升最佳化效能的同時，大幅提高了計算效率。實驗結果表明，MetaDE 在 CEC2022 基準測試套件和機器人控制任務上均展現出卓越的效能。MetaDE 的原始碼已在 GitHub 上開源，網址為 https://github.com/EMI-Group/metade。

背景

在演化計算領域，算法的效能往往受到超參數選擇的顯著影響。為特定問題確定最合適的參數設定一直是一個長期存在的研究挑戰。差分演化（DE）作為一種經典的演化算法，因其簡潔性和穩健的全域搜索能力而廣受青睞；然而，其效能對超參數的選擇高度敏感。傳統方法通常依賴經驗調參或自適應機制來提升效能。但面對多樣化的問題場景，這些方法往往難以在效率和廣泛適用性之間取得平衡。

「元演化」的概念早在上個世紀就已被提出，旨在利用演化算法本身來最佳化這些算法的超參數配置。儘管元演化已存在多年，但其實際應用一直受到高計算需求的制約。近年來 GPU 運算的進步緩解了這些限制，為演化算法提供了強大的硬體支援。特別是分散式 GPU 加速的 EvoX 框架的推出，極大地促進了基於 GPU 的演化算法的發展。在此背景下，我們的研究團隊提出了一種新穎的元演化方法，利用 DE 來演化自身的超參數和策略，從而為解決演化算法中長期存在的參數調優問題提供了新的途徑。

什麼是元演化？

元演化的核心思想可以概括為「用演化算法來演化自身」（Evolving an Evolutionary Algorithm by an Evolutionary Algorithm）。這一概念超越了傳統的演化計算方法，不僅使用演化算法來搜索問題的最優解，還透過算法自身的演化過程來調適其超參數和策略。

換言之，元演化引入了一種「自我演化」的範式，使算法在探索問題解空間的同時能夠最佳化自身。透過在演化過程中不斷自我精進，算法變得更具適應性，能夠在各種問題場景中保持高效率。

以 MetaDE 為例，其設計根植於這一理念。在雙層結構中，下層（「執行器」）使用參數化的 DE 來解決給定的最佳化問題。上層（「演化器」）同時使用 DE 來最佳化執行器的超參數配置。這一框架使 DE 不僅作為求解器，還能「探索」如何最佳地調整自身的參數和策略，以更有效地解決不同問題。這一過程類似於一個系統逐步理解和精進自身——從**「被動解決問題」到「主動自我演化」**的轉變。因此，它能更好地適應多樣化的任務。如果我們將 DE 視為一個複雜系統，MetaDE 實際上實現了該系統內部以「遞迴」方式進行自我理解和自我改進。

在電腦科學中，「遞迴」一詞通常描述一個呼叫自身的函數或程序。在 MetaDE 中，這一概念被賦予了新的含義：它是一種內部遞迴的最佳化機制，使用 DE 來演化 DE 的超參數。這種自我參照的方案不僅體現了強大的適應性，還為「沒有免費午餐」定理提供了新的視角。由於不存在對所有問題都普遍最優的單一參數集，讓算法自主演化自身是為特定任務找到最佳參數配置的關鍵。

透過這種遞迴式的元演化方法，MetaDE 實現了以下幾項優勢：

1. 自動化參數調優

 消除了費時費力的手動調參過程。算法自身學習如何調整超參數，減少人為干預並提高效率。

2. 增強適應性

 MetaDE 能夠動態回應不斷變化的問題特徵和條件，即時修改策略以提升效能。這顯著增加了算法的靈活性。

3. 高效搜索 透過利用固有的平行性，MetaDE 大幅加速了大規模最佳化問題中的搜索。它能在合理的時間範圍內為高維、複雜問題提供可行解。

算法實現

MetaDE 採用基於張量的技術和 GPU 加速來實現高效的平行運算。透過同時處理種群中的大量個體，整體計算效率顯著提升，這在單目標黑箱最佳化和大規模最佳化問題中尤為有利。透過對關鍵參數和資料結構（如種群、適應度、策略參數）進行張量化，MetaDE 不僅實現了更高的計算效率，還增強了處理複雜最佳化挑戰的能力。與經典 DE 和其他演化算法（EAs）相比，MetaDE 在解決大規模問題方面表現出更優越的效能。得益於基於張量的方法，MetaDE 能更有效地利用計算資源，比傳統方法產生更快的解和更精確的最佳化結果。

PDE 架構

研究團隊首先提出了一個完全支援參數和策略修改的參數化 DE 算法框架（PDE）。在此框架中，F 和 CR 是連續參數，而其他參數是離散的。虛線框表示允許的參數值範圍。變異函數由左右基向量以及控制差分向量數量的參數推導而來。

MetaDE 架構

MetaDE 採用雙層結構，由一個演化器（上層）和多個執行器（下層）組成。演化器是一個 DE（或可能是另一種演化算法），負責最佳化 PDE 的參數。演化器種群中的每個個體 x_i 對應一個唯一的參數配置 θ_i。這些配置被傳遞給 PDE 以實例化不同的 DE 變體，每個變體由一個執行器管理，在給定的最佳化任務上獨立運行。每個執行器將其最佳適應度值 y^* 回傳給演化器，演化器將該適應度值 y_i 分配給對應的個體 x_i。

實驗效能

為了全面評估 MetaDE 的有效性，研究團隊進行了涵蓋多個基準測試和實際場景的系統性實驗。每個實驗使用一個演化器（採用 rand/1/bin 策略的 DE）和執行器（種群大小為 100 的 PDE）。主要實驗內容包括：

CEC2022 基準測試 將 MetaDE 與各種 DE 變體在單目標最佳化任務中進行比較。

與 CEC2022 前四名算法的比較 在相同的函數評估次數（FEs）預算下，評估 MetaDE 與 CEC2022 競賽中表現最佳的四個算法。

固定掛鐘時間下的函數評估次數（FEs） 分析 MetaDE 在 GPU 加速下的計算效率。

機器人控制任務 將 MetaDE 應用於 Brax 平台環境中的機器人控制任務，以驗證其實際效用。

CEC2022 基準測試：與主流 DE 變體的比較

團隊在 CEC2022 基準測試套件上將 MetaDE 與幾種代表性的 DE 變體進行了比較，包括：

Standard DE (rand/1/bin)
SaDE 和 JaDE（自適應 DE 算法）
CoDE（策略整合的 DE）
SHADE 和 LSHADE-RSP（基於成功歷史的自適應 DE）
EDEV（整合 DE 變體）

所有算法均在 EvoX 平台上實現，使用 GPU 加速，種群大小為 100 以確保公平性。實驗在不同維度（10D 和 20D）下，在**相同的計算時間約束（60 秒）**內進行。

10D CEC2022 最佳化結果

20D CEC2022 最佳化結果

MetaDE 在大多數測試函數上通常實現了更快速且穩定的收斂。其參數化 DE（PDE）結合上層最佳化，能夠動態適應不同的問題空間，提升整體穩健性和搜索效能。

與 CEC2022 前四名算法的比較（相同 FEs 下）

為了進一步評估 MetaDE 的最佳化能力，我們在相同的函數評估預算下將其與 CEC2022 競賽的前四名算法進行了比較：

EA4eig：整合多種 EAs 的混合方法
NL-SHADE-LBC：改進的自適應 DE
NL-SHADE-RSP-MID：帶中點估計的增強 SHADE
S-LSHADE-DP：透過動態擾動維持種群多樣性的 DE 變體

每個算法均使用其官方參數設定和原始碼，在相同的 FE 約束下運行。在 CEC2022 測試套件上，對 MetaDE 與每個基線算法進行了統計比較（Wilcoxon 秩和檢驗，顯著性水準 0.05）。

表格最後一行顯示了每個算法在不同測試函數上與 MetaDE 相比的表現：+（顯著優於）、≈（無顯著差異）和 −（顯著劣於）。

10D CEC2022 競賽算法比較（相同 FEs）

20D CEC2022 競賽算法比較（相同 FEs）

MetaDE 持續展現出強勁的效能，尤其是在需要穩健收斂的複雜問題上。得益於其自適應機制，MetaDE 能夠有效地針對不同的搜索景觀調整策略，從而提升搜索效率和全域最佳化能力。這些結果表明，MetaDE 不僅優於主流 DE 變體，還對頂級競賽算法展現出強大的競爭力。

計算效率：固定時間（60 秒）內的 FEs

研究團隊進一步記錄了不同算法在相同固定運行時間（60 秒）內完成的函數評估次數（FEs）。

图片2.png

       各算法在 60 秒內達到的 FEs

在相同的 EvoX 框架下使用 GPU 加速平行運算，MetaDE 平均達到了 10****⁹ 級別的 FEs，而傳統 DE 變體僅達到約 10^6 FEs。這一優勢源於 MetaDE 的參數化方法，它對個體進行大規模平行評估，實現了更高效的硬體資源利用。因此，算法在相同的時間窗口內探索了更多的解，提升了解的品質和穩定性。

演化強化學習：機器人控制任務

在強化學習（RL）中，策略最佳化的效率和穩定性至關重要。基於梯度的方法如 PPO 和 SAC 在高維環境中可能遭遇梯度消失或梯度爆炸的問題。相比之下，演化強化學習（EvoRL）透過使用無梯度搜索直接最佳化策略參數來規避這些問題。

演化強化學習流程

在 EvoRL 框架中，MetaDE：

自動最佳化神經網路參數，提升策略模型的適應性。
動態調整超參數，改善訓練穩定性。
利用 GPU 加速來加快策略最佳化。

為了評估 MetaDE 在複雜最佳化任務上的效能，我們將其應用於 Brax 模擬平台中使用 GPU 加速最佳化的機器人控制問題。研究包含三個任務——Swimmer、Hopper 和 Reacher——每個任務由三層全連接神經網路（MLP）建模，目標是最大化獎勵。值得注意的是，每個 MLP 包含約 1,500 個參數，為演化算法（EAs）創造了一個 1,500 維的最佳化挑戰。這對搜索能力和計算效率都提出了嚴格的要求。

三個 Brax 環境的收斂曲線

如圖所示，MetaDE 在基於 Brax 的機器人控制任務中展現出強勁的效能，在 Swimmer 任務上取得了最佳結果，在 Hopper 和 Reacher 上取得了接近最優的結果。其主要優勢在於初始種群的高品質，使得早期階段能夠快速收斂並產生高品質的解。這些發現表明，MetaDE 能夠高效地最佳化神經網路策略，使其非常適合具有複雜物理模擬的機器人控制任務，並為實際應用提供了廣闊的潛力。

結論與未來方向

MetaDE 是一種創新的元演化方法，不僅在解決最佳化任務方面表現出色，還能自主調優和精進自身的策略。憑藉差分演化的優勢，MetaDE 在自適應參數配置和策略演化方面展現出強大的潛力。實驗結果顯示其在一系列基準測試中具有優越的穩健性，而透過演化強化學習在機器人控制任務中的成功也凸顯了其實際應用價值。一個核心挑戰在於維持泛化與專業化之間的最佳平衡——確保算法能夠適應多樣化的任務，同時也能針對特定問題進行有效最佳化。這項研究為自適應演化算法提供了新的視角，並可能推動元演化在複雜系統中的進一步發展。

開源程式碼與社群

論文：https://arxiv.org/abs/2502.10470

GitHub：https://github.com/EMI-Group/metade

上游專案（EvoX）：https://github.com/EMI-Group/evox

QQ群：297969717

QQ群 | Evolving Machine Intelligence

MetaDE 建立在 EvoX 框架之上。如果您對 EvoX 感興趣，請查閱 EvoX 1.0 的相關文章以了解更多詳情。

(https://mp.weixin.qq.com/s/uT6qSqiWiqevPRRTAVIusQ)