MiniMax
本文介绍了MiniMax为解决大规模强化学习(RL)在复杂真实世界Agent应用中面临的“不可能三角”(系统吞吐量、训练稳定性和Agent灵活性)而开发的内部RL框架——Forge。主要贡献如下:
1. 整体架构创新:提出了Forge框架,通过灵活的系统架构、标准化的交互协议(Middleware设计),解耦了Agent推理逻辑与底层训练设施,支持任意Agent脚手架(Scaffold)的训练。
2. 大规模工程实践:该系统支持了MiniMax M2.5模型的构建,处理了超过10万种不同的真实世界Agent脚手架和环境,支持长达200k的上下文长度,保持了每日百万级样本的处理吞吐量。
3. 算法与调度优化:引入了Windowed FIFO混合调度策略解决效率与分布一致性的冲突;提出了前缀树合并(Prefix Tree Merging)技术消除计算冗余;采用CISPO算法结合混合域训练和复合奖励框架(包含时间成本奖励),实现了高效且稳定的训练。
在详细介绍架构之前,论文首先将Agent RL系统的优化目标形式化为最大化有效Agent训练产出($J$):
$$ \max J(\theta) = \text{Throughput}(A) \times \text{Sample Efficiency}(A) $$ $$ \text{s.t. } \forall A \in \Omega_{agent} (\text{Arbitrary Agent}) $$其中系统吞吐量受限于Rollout、训练、数据处理和I/O四个组件;样本效率取决于数据分布、质量、算法效率和Off-policy程度。
1.1 Agent扩展性与框架灵活性挑战
当前RL范式存在“玻璃天花板”:
* 受限的Agent自主性:标准框架将Agent视为白盒函数并共享状态,难以模拟复杂的认知架构(如动态上下文管理、多智能体协作),阻碍了模型在任意黑盒Agent上的泛化。
* Token一致性障碍:现有的TITO(Token-In-Token-Out)架构强制Agent与底层Token逻辑耦合。在复杂的上下文管理(Context Management, CM)下,维持高层推理抽象与底层训练表示的一致性计算成本极高。
1.2 系统效率与计算冗余
Agent的Rollout完成时间方差极大(从秒级到数小时),导致调度死锁:
* 异步控制器困境:严格的FIFO/同步调度受“掉队者效应”(Straggler Effect)影响导致集群空闲;而贪婪/FFFO模式虽然最大化了吞吐量,但会导致严重的数据分布偏移(Data Distribution Shift),造成非平稳训练环境和梯度震荡。
* 前缀冗余:Tokenizer机制与上下文管理的相互作用导致大量请求共享相同的前缀,在训练期间造成显著的计算浪费。
1.3 算法挑战:信用分配与优化稳定性
* 稀疏奖励与高梯度方差:Agent任务涉及超长视界和延迟反馈,在200k上下文窗口内将信用分配给特定Token极其困难,导致低信噪比和高梯度方差。
* 忽略延迟的优化:传统RL目标仅关注正确性而忽略执行的时间成本。在现实场景中,不同轨迹的延迟差异巨大,标准范式未能激励并行化或高效工具的使用。
为了缓解“效率 vs. Off-Policyness”的权衡并减少冗余,系统采用了以下架构创新。
为了实现真正的可扩展架构,系统超越了具体实现,采用了通用的“中间件”设计,将Agent的推理逻辑与底层训练基础设施解耦。RL系统由以下3个模块组成:
Agent Side(Agent端):
Middleware Abstraction Layer(中间件抽象层):
Training and Inference Side(训练与推理端):
通过这种模块化设计,Forge实现了引擎与Agent的完全解耦,集成了数百种类型的脚手架和数千种不同的工具调用格式。
对于白盒Agent,通过全面的脚手架设计和增强,直接观察并优化模型在特定架构上的性能。针对长视界任务中上下文管理(如DeepSearch)面临的问题,采取了以下措施:
针对用户操作的专有或复杂“黑盒”Agent架构,Forge确保了跨不同认知架构的一致优化。
为了解决系统吞吐量与分布一致性之间的冲突,引入了Windowed FIFO策略。该策略在训练调度器上施加滑动约束,作为严格同步排序与贪婪异步执行之间的“中间地带”。
受限的可见性范围(Restricted Visibility Scope):
窗口内的局部“贪婪”无序(Local "Greedy" Disorder):
窗口边界的全局“严格”阻塞(Global "Strict" Blocking):
约束实现:
在Agent训练中,数据集通常由大量的多轮对话样本组成,这些样本在结构上表现出高度的重叠。
通过三项架构创新优化生成管道:
核心算法采用CISPO,并专门针对长视界Agent的特性进行了调整。
* 统一混合域训练:不同于导致负迁移或域间干扰的多阶段强化学习,采用统一训练策略。同时混合推理(Reasoning)、通用问答(General QA)和Agent领域的任务。这种联合训练方法减轻了顺序训练中常见的性能下降,并显著增强了模型在不同任务间的泛化能力。
提出了一个复合奖励框架,旨在解决超长上下文(高达200k)的信用分配挑战,同时确保训练稳定性:
* 过程奖励(Process Reward):为了提供密集反馈,针对中间行为(例如惩罚语言混合或特定工具调用错误),而不是仅依赖最终结果。
* 任务完成时间奖励(Task Completion Time Reward):在Agent场景中,将相对完成时间纳入奖励信号。这不仅取决于Token生成,还取决于特定工具执行和子Agent调用的延迟。这激励Agent利用并行性,从而加速任务执行。
* Reward-to-go用于方差减少:采用Reward-to-go公式对回报进行归一化,有效降低梯度方差并提高信用分配的精度,稳定优化过程。
实验配置与环境
* 模型:MiniMax M2.5。
* 数据规模与上下文:支持高达200k的上下文长度,处理了超过10万种不同的真实世界Agent脚手架。
* 硬件与吞吐量:系统保持了每日百万级样本的处理吞吐量。
* 验证对象:包括OpenCode Agent(代码中心)、Truncate BC策略等多种黑盒与白盒Agent。
实验结果
* 训练稳定性与收敛性:通过CISPO算法与复合奖励框架,系统实现了奖励的持续收敛(见图2)。Reward-to-go机制有效降低了梯度方差。
* 训练效率提升:Prefix Tree Merging技术消除了前缀冗余,实现了40倍的训练速度提升,并显著减少了内存开销。
* 泛化能力:通过解耦架构和混合域训练,M2.5在数百种脚手架和数千种工具格式上展示了广泛的兼容性和性能提升,证明了在黑盒Agent上的鲁棒性。
MiniMax通过Forge框架成功解决了扩展Agent RL面临的“不可能三角”。通过整合灵活的解耦架构、Windowed FIFO调度、Prefix Tree Merging以及稳定的CISPO算法,Forge实现了RL系统吞吐量的突破,同时确保了跨任意Agent脚手架的鲁棒泛化。这一整体方法支持了MiniMax M2.5的大规模训练,交付了高效的真实世界Agent能力,推进了“Intelligence with Everyone”的使命。