ICML 2026 | EvoGM：無需重新訓練，透過群體進化實現大模型自主合併

摘要

隨著大語言模型能力不斷提升，針對不同任務微調得到的專家模型也越來越多。如何在不重新訓練參與合併的大模型、不依賴額外大規模訓練資料的前提下，高效複用這些專家模型的能力，成為模型合併中的重要問題。現有方法通常依賴平均合併、手工縮放、參數裁剪或隨機搜尋，雖然能夠在一定程度上組合多個模型的能力，但難以從歷史評估中持續學習並改進合併策略。

針對這一問題，EvoX 團隊聯合鵬城實驗室提出生成式演化模型合併框架 EvoGM（Evolutionary Generative Merging），將合併係數搜尋轉化為可學習的生成式優化問題。EvoGM 把不同合併配置組織成候選種群，透過贏家—輸家配對、雙生成器訓練、循環一致性約束和演化專家基底更新，使種群在「生成—評估—選擇—再學習」的閉環中持續進化，並從有限驗證回饋中自主學習如何把低效能配置轉化為高效能配置。實驗結果表明，EvoGM 在已見任務和未見任務場景下均展現出更強的模型合併能力。

一、為什麼我們需要模型合併？

近年來，大語言模型的能力越來越強，但訓練和微調的成本也越來越高。一個自然的問題是：如果我們已經有了多個在不同任務上表現較好的專家模型，能不能不重新訓練這些大模型，而是把它們的能力組合起來，得到一個更強、更通用的新模型？

這正是模型合併要解決的問題。

模型合併的核心思想很直接：多個專家模型往往來自同一基礎模型，只是在不同資料或任務上進行了微調。因此，可以把每個專家模型相對於基礎模型的參數變化看作一種「能力方向」，再加權組合這些方向，建構新的合併模型。其優勢是無需重新訓練或微調參與合併的大模型，也不依賴額外大規模訓練資料，只需搜尋合適的合併係數。需要說明的是，EvoGM 訓練輕量級生成器來搜尋係數，但不更新專家大模型參數。

二、模型合併真正難在哪裡？

真正困難的地方在這裡：這些係數到底應該怎麼選？

模型合併看似只是對多個專家模型進行加權組合，但不同專家模型之間的能力關係並不簡單。有些任務方向可以互補，有些參數更新可能相互衝突；一組合併係數在某類任務上表現更好，也可能在另一類任務上帶來效能損失。因此，合併係數與最終模型效能之間並不是一個容易手工刻畫的線性關係。

傳統方法通常依賴平均合併、手工縮放、參數裁剪或稀疏化等啟發式規則。這些方法簡單有效，但也存在明顯侷限：它們往往是靜態的、經驗性的，很難根據不同任務的驗證回饋自適應調整。

後來，演化搜尋類方法被引入模型合併，把候選合併配置組織成種群，透過隨機擾動、適應度評估和選擇來尋找更優係數。這類方法比固定規則更靈活，但仍然存在一個關鍵問題：驗證結果通常只被用於排序和篩選，而沒有進一步轉化為可學習的搜尋經驗。換句話說，演算法知道「哪個候選模型更好」，卻沒有真正學習「較差的候選模型應該如何變得更好」。

這也是 EvoGM 希望解決的核心問題：模型合併不應只是讓候選群體不斷試錯和篩選，而應從歷史評估中學習改進方向，自主產生更有潛力的合併配置。

三、EvoGM：讓合併策略在群體進化中自主學習

為解決上述問題，我們提出了 EvoGM（Evolutionary Generative Merging），程式碼已開源：https://github.com/JiangTao97/evogm。

EvoGM 的核心思想是：將候選合併配置組織為種群，並把合併係數的搜尋過程轉化為生成式學習問題。

關鍵在於，生成模型並不直接學習「最優合併係數是什麼」，而是學習「如何從較差配置變成較優配置」。這是因為在模型合併場景中，不同配置往往難以形成可靠的全域排序；相比之下，兩兩比較更容易獲得穩定的優劣訊號。

EvoGM 利用歷史驗證結果建構 winner-loser 配對資料，讓生成器學習從 loser 到 winner 的改進方向。對於每一對候選合併配置，演算法不僅記錄它們對應的效能差異，還將這種「由差變好」的關係轉化為訓練樣本。經過不斷累積和學習，生成器能夠逐漸捕捉哪些係數調整更可能帶來效能提升，從而形成對搜尋空間結構的隱式理解。換句話說，它學習的不是優秀解本身，而是效能提升的規律。

這一思路與演化優化中的競爭學習機制一脈相承。最早可以追溯到 CSO（Competitive Swarm Optimizer），其透過 winner-loser 競爭推動個體更新，讓表現較差的個體向表現更好的個體靠近；EvoGO（Evolutionary Generative Optimization）則進一步利用生成模型從歷史搜尋資料中學習改進方向，以資料驅動的方式替代部分人工設計的搜尋算子。EvoGM 將這一思想引入模型合併場景，透過驗證回饋訓練生成器，引導後續搜尋。這樣一來，驗證結果不僅用於篩選和淘汰候選解，而是被持續轉化為可複用的搜尋經驗，使搜尋過程能夠隨著迭代不斷累積知識、提高效率。

四、EvoGM 是如何運作的？

EvoGM 的整體流程可分為五步：建構候選方案、形成 winner-loser 訓練對、訓練生成器、生成並選擇新係數，以及更新專家基底。在給定專家模型與驗證任務後，這些步驟可以自動循環執行，無需人工逐輪設計合併規則或調節係數。

種群初始化：建構候選合併方案

EvoGM 首先需要建構一批初始候選解。這裡的每個候選解對應一組合併係數，也就是對多個專家模型的不同組合方式。

具體來說，初始種群通常包括幾類配置：平均合併對應的係數、單個專家模型對應的 one-hot 係數，以及隨機取樣得到的合併係數。這樣既能涵蓋一些常見的基準合併方式，也能為後續搜尋提供一定的多樣性。

對於每一組候選係數，EvoGM 都會據此建構一個合併模型，並在驗證集上評估其效能。經過這一步，演算法得到的不只是若干候選模型，而是一批「合併係數—驗證效能」的歷史記錄。後續所有生成式學習和演化選擇，都建立在這些記錄之上。

贏家—輸家配對：把驗證結果轉化為訓練資料

得到候選解及其驗證效能後，EvoGM 會根據表現將歷史候選配置劃分為 winner 和 loser。winner 表示相對更優的合併配置，loser 表示相對較差的合併配置。

這裡的關鍵不是簡單保留高分配置、丟棄低分配置，而是把兩者組成訓練對。對於生成器來說，一個 winner-loser pair 就提供了一條有用的資訊：從這個較差配置出發，應該向哪個更優配置靠近。

因此，低效能候選並不是無效樣本。相反，它們提供了搜尋過程中的「起點」，而高效能候選提供了「改進方向」。透過這種配對方式，EvoGM 能夠把有限的驗證評估結果轉化為更多可學習的監督訊號，提高小樣本回饋下的資料利用效率。

雙生成器訓練：學習從差配置到好配置的變換

在建構好 winner-loser 訓練對之後，EvoGM 使用雙生成器結構進行訓練。

其中，前向生成器負責學習從 loser 到 winner 的映射，也就是把低效能合併配置轉化為更有潛力的高效能配置。反向生成器則學習從 winner 回到 loser 的反向映射，用於約束生成過程的結構一致性。

這種設計的目的不是讓生成器簡單記住已有的高分配置，而是讓它學習合併係數空間中的改進規律。透過循環一致性約束，EvoGM 可以減少生成器坍縮到少數高分點的風險，使生成出的候選配置既朝向高效能區域，又盡量保留搜尋空間中的結構資訊。

生成式演化與選擇：用學出來的算子替代隨機擾動

生成器訓練完成後，EvoGM 會用前向生成器對當前候選配置進行變換，生成一批新的合併係數。這一步相當於傳統演化演算法中的「產生新個體」，但新個體不再主要來自隨機擾動，而是來自生成模型學到的改進方向。

隨後，這些新生成的合併係數會被用於建構新的合併模型，並再次在驗證集上進行評估。評估結果會被加入歷史記錄中，與已有候選一起參與選擇。

透過這樣的循環，EvoGM 每一輪都會經歷「生成—評估—選擇—再學習」的過程。這一閉環構成了候選合併方案的群體進化：歷史驗證結果不斷累積，生成器持續獲得新的訓練訊號，從而逐步提高自主生成高品質合併配置的能力。

演化專家基底：讓搜尋空間不斷自我更新

除了優化合併係數，EvoGM 還進一步引入了演化專家基底機制。

傳統模型合併通常把專家模型視為固定輸入，只在固定專家模型之間搜尋合併係數。EvoGM 則不同：每一輪結束後，表現最好的若干合併模型會被選出來，作為下一輪搜尋中的新專家基底。

這樣做的意義在於，優秀的合併模型本身已經包含了某些有效的能力組合。把它們納入新的專家基底後，後續搜尋不再侷限於原始專家模型之間的線性組合，而是可以在已經被驗證有效的中間模型基礎上繼續演化。

因此，EvoGM 的搜尋空間不是固定不變的，而是會隨著搜尋過程不斷更新。它不僅在尋找更好的合併係數，也在逐步建構更適合當前任務的專家表示基礎。

五、EvoGM 的關鍵優勢是什麼？

相比傳統模型合併方法，EvoGM 的優勢主要體現在三個方面。

首先，EvoGM 將模型合併從靜態啟發式規則推進到回饋驅動的自主搜尋。傳統方法往往依賴平均合併、手工縮放或隨機擾動，而 EvoGM 可以根據歷史驗證結果持續調整搜尋方向，使合併過程不再依賴人工逐輪設計規則和調節係數。

其次，EvoGM 提高了有限評估預算下的資料利用效率。在模型合併中，每一次候選配置評估都需要實際建構合併模型並執行驗證任務，成本並不低。EvoGM 將這些評估結果進一步轉化為可學習的訓練訊號，使每一次試錯都能為後續搜尋提供資訊。

最後，EvoGM 不只是尋找一組更好的合併係數，也在逐步學習專家模型之間的能力組合規律。透過候選種群的生成式搜尋與專家基底更新，它能夠在已有專家模型的基礎上不斷重組和擴展搜尋空間，從而更有效地自主發現高效能合併模型。

六、實驗結果：EvoGM 是否真的有效？

在已見任務設定中，我們首先在 GLUE 系列任務上評估 EvoGM 的模型合併效果。該實驗涵蓋 CoLA、MNLI、MRPC、QNLI、QQP、RTE、SST-2 和 STS-B 等 8 個語言理解任務，並與 Task Arithmetic、TIES、DARE-TIES、DELLA、RankMean、CMA、AdaMerging 和 PSO-Merging 等代表性模型合併方法進行比較。實驗結果顯示，EvoGM 在 8 個任務上的平均效能超過此前表現最好的 PSO-Merging。

在更具挑戰性的未見任務設定中，我們進一步評估 EvoGM 是否能夠將已有專家模型的能力遷移到未參與專家微調的新任務上。具體來說，我們合併了 10 個基於 Qwen2.5-1.5B 的 LoRA 專家模型，並在 MMLU、MMLU-Pro、HellaSwag、Knowledge Crosswords、GSM8K、NLGraph、TruthfulQA 和 AbstainQA 等 8 個未見任務上進行測試。這些任務涵蓋知識理解、複雜推理和安全可靠性等不同能力維度，比已見任務更能反映模型合併方法的泛化能力。

在單任務未見合併設定中，EvoGM 會針對每個目標任務分別搜尋一組合併係數。實驗結果顯示，EvoGM 在 8 個測試任務中的 5 個任務上取得最高測試效能。

除了單任務合併，我們還進一步考察了多任務未見合併設定。在這一設定中，目標不再是為每個任務單獨尋找最優模型，而是得到一個能夠同時涵蓋 8 個未見任務的統一合併模型。實驗結果表明，在多任務未見合併中，EvoGM 在所有合併方法中取得最高平均測試效能。

結果顯示，EvoGM 無論在單任務合併還是多任務設定中，均取得了更強的整體泛化表現，並在多個知識、推理和安全相關任務上優於現有模型合併方法。

為了進一步分析 EvoGM 的效能來源及擴展能力，我們進行了消融實驗和不同模型數量下的合併實驗。結果表明，完整的 EvoGM 始終取得最優或最穩定的表現，移除關鍵元件後效能均出現不同程度下降，說明其優勢主要來自生成式演化機制，而非簡單的隨機搜尋或更多搜尋輪次。同時，在參與合併的專家模型數量增加時，EvoGM 仍能保持良好效能，並展現出穩定的提升趨勢，表明其能夠有效應對更大規模、更複雜的合併空間，充分利用不同專家模型之間的互補能力，具有較好的擴展性。

七、從 EvoGO 到 EvoGM：生成式演化思想的延伸

從更大的視角看，EvoGM 可以被理解為 EvoGO 思想在大模型合併中的一次延伸。EvoGO 關注的是如何讓演化優化從依賴人工設計的交叉、變異和擾動算子，轉向由生成模型根據歷史搜尋資料自動學習新解生成方式。也就是說，演化搜尋不再只是「隨機產生候選解並篩選」，而是開始學習「如何產生更有潛力的候選解」。

EvoGM 將這一思想落到大模型合併場景中。在這裡，候選解不再是一般優化問題中的數值變數，而是一組合併係數；一次評估也不再是簡單計算目標函數，而是建構合併模型並在下游任務上驗證效能。因此，EvoGM 實際上把模型合併重新表述為一個生成式優化問題：如何從歷史評估結果中學習專家模型之間的能力組合規律，並生成更優的合併配置。

這一點使 EvoGM 與傳統搜尋式模型合併形成了明顯區別。傳統方法通常只把驗證結果用於排序和篩選，而 EvoGM 進一步把驗證結果轉化為訓練訊號。低效能配置並不會被簡單丟棄，而是與高效能配置組成 winner-loser pairs，用來訓練生成器學習從差配置到好配置的演化方向。

從 EvoGO 到 EvoGM，本質上是從「學習如何優化候選解」走向「讓大模型合併策略在群體中自主進化」。這不僅讓模型合併從經驗規則和隨機擾動中解放出來，也提供了一種新的思路：大模型能力可以被合併，而合併策略本身也可以從群體回饋中持續學習。

八、結論與展望

隨著開源生態中專家模型、LoRA 模型和任務模型越來越多，未來的關鍵問題可能不只是「如何訓練一個新模型」，而是「如何高效組合已有模型能力」。EvoGM 提供了一種新的答案：在不重新訓練參與合併的大模型的前提下，透過生成式演化學習利用有限驗證回饋，自主完成候選種群建構、合併方案生成、評估選擇和專家基底更新。簡單來說，EvoGM 讓模型合併從「憑經驗調係數」走向「讓合併策略自己學習和進化」。這也意味著，大模型能力複用可能進入一個新的階段：不是每遇到一個新任務都重新訓練一個模型，而是讓已有專家模型透過群體進化與自主合併，持續組合出更適合新任務的模型。

開源程式碼 / 社群

📄 論文： https://arxiv.org/pdf/2605.29295 🔗 GitHub：

https://github.com/JiangTao97/evogm 🔼 上游專案（EvoX）：

https://github.com/EMI-Group/evox 🌐 QQ 交流群：297969717