ICML 2026 | EvoGM:无需重新训练,通过群体进化实现大模型自主合并

摘要
随着大语言模型能力不断提升,针对不同任务微调得到的专家模型也越来越多。如何在不重新训练参与合并的大模型、不依赖额外大规模训练数据的前提下,高效复用这些专家模型的能力,成为模型合并中的重要问题。现有方法通常依赖平均合并、手工缩放、参数裁剪或随机搜索,虽然能够在一定程度上组合多个模型的能力,但难以从历史评估中持续学习并改进合并策略。
针对这一问题,EvoX团队联合鹏城实验室提出生成式演化模型合并框架EvoGM(Evolutionary Generative Merging),将合并系数搜索转化为可学习的生成式优化问题。EvoGM把不同合并配置组织成候选种群,通过赢家—输家配对、双生成器训练、循环一致性约束和演化专家基底更新,使种群在”生成—评估—选择—再学习”的闭环中持续进化,并从有限验证反馈中自主学习如何把低性能配置转化为高性能配置。实验结果表明,EvoGM在已见任务和未见任务场景下均展现出更强的模型合并能力。
一、为什么我们需要模型合并?
近年来,大语言模型的能力越来越强,但训练和微调的成本也越来越高。一个自然的问题是:如果我们已经有了多个在不同任务上表现较好的专家模型,能不能不重新训练这些大模型,而是把它们的能力组合起来,得到一个更强、更通用的新模型?
这正是模型合并要解决的问题。
模型合并的核心思想很直接:多个专家模型往往来自同一基础模型,只是在不同数据或任务上进行了微调。因此,可以把每个专家模型相对于基础模型的参数变化看作一种”能力方向”,再加权组合这些方向,构造新的合并模型。其优势是无需重新训练或微调参与合并的大模型,也不依赖额外大规模训练数据,只需搜索合适的合并系数。需要说明的是,EvoGM训练轻量级生成器来搜索系数,但不更新专家大模型参数。
二、模型合并真正难在哪里?
真正困难的地方在这里:这些系数到底应该怎么选?
模型合并看似只是对多个专家模型进行加权组合,但不同专家模型之间的能力关系并不简单。有些任务方向可以互补,有些参数更新可能相互冲突;一组合并系数在某类任务上表现更好,也可能在另一类任务上带来性能损失。因此,合并系数与最终模型性能之间并不是一个容易手工刻画的线性关系。
传统方法通常依赖平均合并、手工缩放、参数裁剪或稀疏化等启发式规则。这些方法简单有效,但也存在明显局限:它们往往是静态的、经验性的,很难根据不同任务的验证反馈自适应调整。
后来,演化搜索类方法被引入模型合并,把候选合并配置组织成种群,通过随机扰动、适应度评估和选择来寻找更优系数。这类方法比固定规则更灵活,但仍然存在一个关键问题:验证结果通常只被用于排序和筛选,而没有进一步转化为可学习的搜索经验。换句话说,算法知道”哪个候选模型更好”,却没有真正学习”较差的候选模型应该如何变得更好”。
这也是 EvoGM 希望解决的核心问题:模型合并不应只是让候选群体不断试错和筛选,而应从历史评估中学习改进方向,自主产生更有潜力的合并配置。
三、EvoGM:让合并策略在群体进化中自主学习

为解决上述问题,我们提出了 EvoGM(Evolutionary Generative Merging),代码已开源:https://github.com/JiangTao97/evogm。
EvoGM 的核心思想是:将候选合并配置组织为种群,并把合并系数的搜索过程转化为生成式学习问题。
关键在于,生成模型并不直接学习”最优合并系数是什么”,而是学习”如何从较差配置变成较优配置”。这是因为在模型合并场景中,不同配置往往难以形成可靠的全局排序;相比之下,两两比较更容易获得稳定的优劣信号。
EvoGM 利用历史验证结果构造 winner-loser 配对数据,让生成器学习从 loser 到 winner 的改进方向。对于每一对候选合并配置,算法不仅记录它们对应的性能差异,还将这种”由差变好”的关系转化为训练样本。经过不断积累和学习,生成器能够逐渐捕捉哪些系数调整更可能带来性能提升,从而形成对搜索空间结构的隐式理解。换句话说,它学习的不是优秀解本身,而是性能提升的规律。
这一思路与演化优化中的竞争学习机制一脉相承。最早可以追溯到CSO(Competitive Swarm Optimizer),其通过 winner-loser 竞争推动个体更新,让表现较差的个体向表现更好的个体靠近;EvoGO(Evolutionary Generative Optimization) 则进一步利用生成模型从历史搜索数据中学习改进方向,用数据驱动的方式替代部分人工设计的搜索算子。EvoGM 将这一思想引入模型合并场景,通过验证反馈训练生成器,引导后续搜索。这样一来,验证结果不再只是用于筛选和淘汰候选解,而是被持续转化为可复用的搜索经验,使搜索过程能够随着迭代不断积累知识、提高效率。
四、EvoGM 是如何工作的?
EvoGM 的整体流程可分为五步:构造候选方案、形成 winner-loser 训练对、训练生成器、生成并选择新系数,以及更新专家基底。在给定专家模型与验证任务后,这些步骤可以自动循环执行,无需人工逐轮设计合并规则或调节系数。
- 种群初始化:构建候选合并方案
EvoGM 首先需要构造一批初始候选解。这里的每个候选解对应一组合并系数,也就是对多个专家模型的不同组合方式。
具体来说,初始种群通常包括几类配置:平均合并对应的系数、单个专家模型对应的 one-hot 系数,以及随机采样得到的合并系数。这样既能覆盖一些常见的基准合并方式,也能为后续搜索提供一定的多样性。
对于每一组候选系数,EvoGM 都会据此构造一个合并模型,并在验证集上评估其性能。经过这一步,算法得到的不只是若干候选模型,而是一批”合并系数—验证性能”的历史记录。后续所有生成式学习和演化选择,都建立在这些记录之上。
- 赢家—输家配对:把验证结果转化为训练数据
得到候选解及其验证性能后,EvoGM 会根据表现将历史候选配置划分为 winner 和 loser。winner 表示相对更优的合并配置,loser 表示相对较差的合并配置。
这里的关键不是简单保留高分配置、丢弃低分配置,而是把两者组成训练对。对于生成器来说,一个 winner-loser pair 就提供了一条有用的信息:从这个较差配置出发,应该向哪个更优配置靠近。
因此,低性能候选并不是无效样本。相反,它们提供了搜索过程中的”起点”,而高性能候选提供了”改进方向”。通过这种配对方式,EvoGM 能够把有限的验证评估结果转化为更多可学习的监督信号,提高小样本反馈下的数据利用效率。
- 双生成器训练:学习从差配置到好配置的变换
在构造好 winner-loser 训练对之后,EvoGM 使用双生成器结构进行训练。
其中,前向生成器负责学习从 loser 到 winner 的映射,也就是把低性能合并配置转化为更有潜力的高性能配置。反向生成器则学习从 winner 回到 loser 的反向映射,用于约束生成过程的结构一致性。
这种设计的目的不是让生成器简单记住已有的高分配置,而是让它学习合并系数空间中的改进规律。通过循环一致性约束,EvoGM 可以减少生成器坍缩到少数高分点的风险,使生成出的候选配置既朝向高性能区域,又尽量保留搜索空间中的结构信息。
- 生成式演化与选择:用学出来的算子替代随机扰动
生成器训练完成后,EvoGM 会用前向生成器对当前候选配置进行变换,生成一批新的合并系数。这一步相当于传统演化算法中的”产生新个体”,但新个体不再主要来自随机扰动,而是来自生成模型学到的改进方向。
随后,这些新生成的合并系数会被用于构造新的合并模型,并再次在验证集上进行评估。评估结果会被加入历史记录中,与已有候选一起参与选择。
通过这样的循环,EvoGM 每一轮都会经历”生成—评估—选择—再学习”的过程。这一闭环构成了候选合并方案的群体进化:历史验证结果不断积累,生成器持续获得新的训练信号,从而逐步提高自主生成高质量合并配置的能力。
- 演化专家基底:让搜索空间不断自我更新
除了优化合并系数,EvoGM 还进一步引入了演化专家基底机制。
传统模型合并通常把专家模型视为固定输入,只在固定专家模型之间搜索合并系数。EvoGM 则不同:每一轮结束后,表现最好的若干合并模型会被选出来,作为下一轮搜索中的新专家基底。
这样做的意义在于,优秀的合并模型本身已经包含了某些有效的能力组合。把它们纳入新的专家基底后,后续搜索不再局限于原始专家模型之间的线性组合,而是可以在已经被验证有效的中间模型基础上继续演化。
因此,EvoGM 的搜索空间不是固定不变的,而是会随着搜索过程不断更新。它不仅在寻找更好的合并系数,也在逐步构造更适合当前任务的专家表示基础。
五、EvoGM 的关键优势是什么?
相比传统模型合并方法,EvoGM 的优势主要体现在三个方面。
首先,EvoGM 将模型合并从静态启发式规则推进到反馈驱动的自主搜索。传统方法往往依赖平均合并、手工缩放或随机扰动,而 EvoGM 可以根据历史验证结果持续调整搜索方向,使合并过程不再依赖人工逐轮设计规则和调节系数。
其次,EvoGM 提高了有限评估预算下的数据利用效率。在模型合并中,每一次候选配置评估都需要实际构造合并模型并运行验证任务,成本并不低。EvoGM 将这些评估结果进一步转化为可学习的训练信号,使每一次试错都能为后续搜索提供信息。
最后,EvoGM 不只是寻找一组更好的合并系数,也在逐步学习专家模型之间的能力组合规律。通过候选种群的生成式搜索与专家基底更新,它能够在已有专家模型的基础上不断重组和扩展搜索空间,从而更有效地自主发现高性能合并模型。
六、实验结果:EvoGM 是否真的有效?
在已见任务设置中,我们首先在 GLUE 系列任务上评估 EvoGM 的模型合并效果。该实验涵盖 CoLA、MNLI、MRPC、QNLI、QQP、RTE、SST-2 和 STS-B 等 8 个语言理解任务,并与 Task Arithmetic、TIES、DARE-TIES、DELLA、RankMean、CMA、AdaMerging 和 PSO-Merging 等代表性模型合并方法进行比较。实验结果显示,EvoGM 在 8 个任务上的平均性能超过此前表现最好的 PSO-Merging。

在更具挑战性的未见任务设置中,我们进一步评估 EvoGM 是否能够将已有专家模型的能力迁移到未参与专家微调的新任务上。具体来说,我们合并了 10 个基于 Qwen2.5-1.5B 的 LoRA 专家模型,并在 MMLU、MMLU-Pro、HellaSwag、Knowledge Crosswords、GSM8K、NLGraph、TruthfulQA 和 AbstainQA 等 8 个未见任务上进行测试。这些任务覆盖知识理解、复杂推理和安全可靠性等不同能力维度,比已见任务更能反映模型合并方法的泛化能力。
在单任务未见合并设置中,EvoGM 会针对每个目标任务分别搜索一组合并系数。实验结果显示,EvoGM 在 8 个测试任务中的 5 个任务上取得最高测试性能。

除了单任务合并,我们还进一步考察了多任务未见合并设置。在这一设置中,目标不再是为每个任务单独寻找最优模型,而是得到一个能够同时覆盖 8 个未见任务的统一合并模型。实验结果表明,在多任务未见合并中,EvoGM 在所有合并方法中取得最高平均测试性能。

结果显示,EvoGM 无论在单任务合并还是多任务设置中,均取得了更强的整体泛化表现,并在多个知识、推理和安全相关任务上优于现有模型合并方法。


为了进一步分析 EvoGM 的性能来源及扩展能力,我们进行了消融实验和不同模型数量下的合并实验。结果表明,完整的 EvoGM 始终取得最优或最稳定的表现,移除关键组件后性能均出现不同程度下降,说明其优势主要来自生成式演化机制,而非简单的随机搜索或更多搜索轮次。同时,在参与合并的专家模型数量增加时,EvoGM 仍能保持良好性能,并展现出稳定的提升趋势,表明其能够有效应对更大规模、更复杂的合并空间,充分利用不同专家模型之间的互补能力,具有较好的扩展性。
七、从 EvoGO 到 EvoGM:生成式演化思想的延伸
从更大的视角看,EvoGM 可以被理解为 EvoGO 思想在大模型合并中的一次延伸。EvoGO 关注的是如何让演化优化从依赖人工设计的交叉、变异和扰动算子,转向由生成模型根据历史搜索数据自动学习新解生成方式。也就是说,演化搜索不再只是”随机产生候选解并筛选”,而是开始学习”如何产生更有潜力的候选解”。
EvoGM 将这一思想落到大模型合并场景中。在这里,候选解不再是一般优化问题中的数值变量,而是一组合并系数;一次评估也不再是简单计算目标函数,而是构造合并模型并在下游任务上验证性能。因此,EvoGM 实际上把模型合并重新表述为一个生成式优化问题:如何从历史评估结果中学习专家模型之间的能力组合规律,并生成更优的合并配置。
这一点使 EvoGM 与传统搜索式模型合并形成了明显区别。传统方法通常只把验证结果用于排序和筛选,而 EvoGM 进一步把验证结果转化为训练信号。低性能配置并不会被简单丢弃,而是与高性能配置组成 winner-loser pairs,用来训练生成器学习从差配置到好配置的演化方向。
从 EvoGO 到 EvoGM,本质上是从”学习如何优化候选解”走向”让大模型合并策略在群体中自主进化”。这不仅让模型合并从经验规则和随机扰动中解放出来,也提供了一种新的思路:大模型能力可以被合并,而合并策略本身也可以从群体反馈中持续学习。
八、结论与展望
随着开源生态中专家模型、LoRA 模型和任务模型越来越多,未来的关键问题可能不只是”如何训练一个新模型”,而是”如何高效组合已有模型能力”。EvoGM 提供了一种新的答案:在不重新训练参与合并的大模型的前提下,通过生成式演化学习利用有限验证反馈,自主完成候选种群构建、合并方案生成、评估选择和专家基底更新。简单来说,EvoGM 让模型合并从”凭经验调系数”走向”让合并策略自己学习和进化”。这也意味着,大模型能力复用可能进入一个新的阶段:不是每遇到一个新任务都重新训练一个模型,而是让已有专家模型通过群体进化与自主合并,持续组合出更适合新任务的模型。
开源代码 / 社区
📄 论文: https://arxiv.org/pdf/2605.29295 🔗 GitHub:
https://github.com/JiangTao97/evogm 🔼 上游项目(EvoX):
https://github.com/EMI-Group/evox 🌐 QQ交流群:297969717
