发表时间: 2026-05 · arXiv:2605.26494 (MiniMax)
作者/机构: MiniMax
大型语言模型正迅速从短文本、单轮对话转向长周期的智能体工作流,例如编写和交付生产代码、浏览开放网络、操作异构工具以及跨越数百个交错的推理和行动步骤生成结构化的办公文档【2, 15, 34】。这种转变带来了两个独特的难题。首先,智能体任务固有的超长上下文在训练和推理过程中都带来了严峻的效率和成本瓶颈,尤其是在大规模、高可用性的生产部署的严格要求下。其次,在实际环境中的部署要求解决本质上复杂且高风险的任务,例如生产级软件工程和知识密集型办公自动化。
为应对这些双重挑战,我们推出了MiniMax-M2系列,这是一个混合专家(MoE)语言模型家族,其构建围绕一个单一设计原则:小激活可以释放最大的真实世界智能。旗舰M2模型是一个62层、仅解码器的Transformer,总参数量为229.9B,每个token仅激活9.8B参数,组织为256个细粒度专家【12】,采用sigmoid门控、带GQA的全多头注意力【1】,192K token的原生上下文窗口,以及一个多标记预测(MTP)模块【13, 14】,该模块在推理时兼作推测解码的草稿路径【21】。在29.2T token上进行预训练奠定了基础模型;M2的真实世界能力主要通过一个智能体原生的后训练流程构建,该流程的组件从M2到M2.5再到最新的M2.7协同进化。
主要贡献:MiniMax-M2系列持续的能力演进和性能增强主要源于以下技术创新:
* 高保真、大规模的智能体数据管道:我们为智能体编码、协同工作(cowork)、推理和通用知识任务设计了数据管道,其中每个任务都配有其相应的静态/运行时环境、可验证的奖励或可信的反馈信号。我们发现,提高每个被接受轨迹的奖励质量和可信度——无论是通过可执行的验证信号还是通过裁判模型的证据检查——对于充分释放基础模型的内在潜力至关重要。
* Forge,一个智能体原生的强化学习系统:我们构建了Forge,这是一个为大规模、通用智能体强化学习而设计的系统,它在一个统一的训练循环中无缝地接纳白盒和黑盒(仅API)智能体。通过解耦关键架构组件——包括训练、推理和智能体本身——并结合鲁棒性优先的算法设计和细致的奖励系统,Forge实现了高度稳定的强化学习时序扩展。此外,Forge集成了窗口化FIFO调度以吸收轨迹长度方差,前缀树合并,以及与我们的部署堆栈协同设计的推理内核,从而显著提升了RL训练效率和可扩展性。
* M2.7中的自进化初步实践:我们展示了M2.7中一种早期的、可操作的自进化形式:模型能够自主地对我们自己基础设施上的失败训练运行进行分类处理,跨任务和实验编辑自己的智能体支架,并通过在代表性的机器学习工程任务上运行多轮自我改进来进行评估。从M2到M2.5再到M2.7在智能体基准测试上的系列内部增益已经反映了这一点,这关闭了前沿模型开发中最昂贵的人在环(human-in-the-loop)瓶颈之一。
结果:图1预告了MiniMax-M2.7在三个能力领域的头条数据。在智能体编码方面,M2.7在SWE-bench Pro上达到56.2分,在SWE-bench Multilingual上达到76.5分,在Multi-SWE-bench上达到52.7分,在Terminal-Bench 2.0上达到57.0分。在智能体协同工作方面,它在MM Claw上达到62.7分,在BrowseComp上达到77.8分,在GDPval-AA上达到50.0分,在Toolathlon上达到46.3分。在推理与知识方面,M2.7在AIME 2026上获得94.2分,在GPQA-Diamond上获得89.8分。仅凭约10B的激活参数,MiniMax-M2.7的性能已接近最强的闭源前沿系统。
图 1 | MiniMax-M2.7与闭源前沿基线在智能体编码、智能体协同工作以及推理与知识基准测试中的性能对比。仅凭约10B的激活参数,MiniMax-M2.7在与体量更大、计算更密集的系统竞争中保持了竞争力。
M2模型总体设计。M2是一个基于混合专家(MoE)架构的大规模稀疏语言模型,旨在扩展模型容量的同时保持每个token的低计算预算。它总共包含229.9B参数,每个token激活9.8B参数。该模型实现为一个62层的仅解码器Transformer,隐藏层维度为3072,词表大小为200,064,并在29.2T token上进行了预训练,最大上下文长度为192K。
M2的Transformer块结构。M2中的每个Transformer块由一个多头自注意力模块和一个混合专家(MoE)前馈网络层组成。在注意力方面,M2在所有层都采用完整的全多头注意力,使用48个查询头和8个键值头(GQA)【1】。整个模型应用了旋转位置嵌入(RoPE)【42】。这种设计与MiniMax-Text-01【31】中探索的混合注意力机制不同,反映了我们在大规模设置中对全注意力的偏好(见2.2.2节)。MoE前馈网络层包含256个细粒度专家【12】,每个token激活8个专家。路由通过带有可学习的专家特定偏置项的sigmoid门控实现,这改善了负载均衡,同时大大减少了对辅助损失的依赖【46】(见2.2.1节)。除了标准的下一token预测目标外,我们还在预训练中加入了多标记预测(MTP)模块【14】。该模块在持续预训练期间通过权重复制进行扩展,以支持多步推测解码【21】(见2.3节)。
M2设计的核心决策点。M2的设计空间主要由两个架构决策主导:如何稀疏化前馈网络层,以及如何在各层之间构建注意力。每个决策都是通过与替代方案进行刻意基准测试后做出的,其理由和支持证据详述如下。
M2的MoE层设计与改进。M2在其前馈网络层采用了混合专家(MoE)架构,并通过三项修改来提升表达能力、路由动态和负载均衡。
细粒度专家。我们采用了一种细粒度的专家设计,使用更多数量但更小的专家,这增加了专家总数,同时减小了每个专家的FFN大小。这种设计增加了路由的组合多样性,并减少了专家在不同设备上利用率的方差(见表1)。
Sigmoid门控。我们使用sigmoid门控进行专家路由,而不是基于softmax的top-k门控【41】。每个专家获得一个独立的激活分数,消除了softmax施加的零和约束。这允许多个专家可以同时以高置信度被激活,并在训练过程中带来更平滑的路由动态。
专家偏置。我们在门控函数中引入了可学习的偏置项,作为每个专家的路由分数偏移。这些偏置与模型参数共同优化,并隐式地调节专家利用率,从而使得辅助的负载均衡损失可以被大幅降低。
表 1 | MoE细粒度专家设计和多标记预测(MTP)模块的消融研究,评估基准包括MATH【17】、MMLU【16】、ARC-Challenge【11】、KorBench【25】和HumanEval【9】。粗体表示每行的最高分。
M2采用全注意力机制的原因。M2在所有层均采用全多头注意力,这与MiniMax-Text-01【31】中使用的混合设计(交错使用Lightning Attention【38】和全注意力)有所不同。尽管高效注意力机制在理论上很有吸引力,但我们发现没有一种变体能在涉及推理、编码和智能体任务的生产环境中可靠地匹配全注意力的质量。
评估困难。核心挑战在于如何可靠地衡量质量损失。在MiniMax-Text-01开发期间,我们的混合注意力模型在标准基准测试(MMLU【16】、BBH【43】、MATH【17】、LongBench【3】)上似乎与全注意力相当,但在更大规模下,复杂的多跳推理中出现了明显的不足。我们开发了代理指标来解决这些差距,但代理指标与真实下游性能之间的相关性很脆弱——它可能在更大规模或未见过的任务分布上不成立。此外,进行统计上显著的评估所需的计算量随着任务复杂性的增加而大幅增长,并且不同的架构与数据分布和训练方案的相互作用是不可预测的,这使得可靠的比较异常困难。
基础设施差距。线性和稀疏注意力的基础设施仍然不如全注意力成熟。许多线性架构即使在训练期间也受到内存限制。对于推理,关键挑战依然存在:对低精度存储的敏感性、缺乏原生的前缀缓存支持,以及与推测解码的不明确集成。
混合SWA实验。我们为M2的注意力层广泛探索了混合滑动窗口注意力(SWA)【5】的变体,在多种配置下持续预训练了数千亿到数万亿的token——改变SWA/全注意力的比例、调整RoPE设置、探索层内和层间混合、分析注意力模式(如归纳头【33】、检索头【50】),并添加sink tokens【51】。在预训练期间,所有变体在检索、多跳推理和上下文学习任务上均表现出性能下降(表2)。SFT后,差距在长上下文场景下变得尤为明显:在超过32K上下文的基准测试中(智能体任务和复杂的长上下文评估),SWA变体的表现显著差于全注意力。在32K上下文内的基准测试中,差异则好坏参半且绝对值较小——SWA在一些指令遵循和较短周期的智能体任务(如IFBench, XBench-ds)上与全注意力持平甚至超过,而全注意力在知识密集型评估(如GPQA-Diamond, MMLU-Pro)上仍保持优势;见表3。这些发现表明,混合SWA的注意力覆盖范围限制严重影响了长上下文能力,而对短上下文场景的影响则微乎其微。
展望。随着上下文长度的增长和GPU计算扩展速度的减慢,次二次方注意力将变得越来越重要。我们正在投资于更好的长上下文数据、评估方法和基础设施,以实现这一转变。
表 2 | M2架构规模下的预训练评估:全注意力基线 vs. 混合SWA,涵盖通用知识(MMLU【16】、MATH【17】)、长上下文检索(HELMET【53】、RULER【18】)和上下文内翻译(MTOB【44】)。粗体表示每行的最高分。
M2中MTP模块的应用。M2集成了多标记预测(MTP)【14】,训练模型联合预测接下来的k个token。这种设计提供了更丰富的训练信号,并在推理时能够进行推测解码【21】。
预训练阶段。在预训练期间,M2采用单个MTP模块(k=1)进行训练,遵循DeepSeek-V3【13】的设计(图2),初始MTP损失权重为0.3,在衰减阶段退火至0.1。如表1所示,我们的消融实验表明,MTP在所有基准测试中都能持续提升模型性能,其中在重推理任务上增益最大。
通过权重复制进行扩展。为了支持多步推测解码,我们在持续预训练的衰减阶段将MTP模块从一个扩展到三个(k=3)。我们没有随机初始化,而是从主模型复制权重来初始化MTP模块。这个策略至关重要,原因有二:(1) 复制初始化的模块比随机初始化的模块收敛得快得多,后者开始时损失很高,会暂时降低主模型的性能;(2) 它在过渡期间最大限度地减少了对主模型表示的干扰。扩展后,我们首先冻结主模型,仅训练MTP模块一小段时间,直到它们的损失稳定,然后切换到所有模块的联合训练。我们还探索了全程保持主模型冻结的方案,但发现在这种仅MTP的训练计划下,MTP模块收敛到的最终质量比联合训练差。
推理。在推理时,三个MTP模块生成草稿token,这些token由主模型在单次前向传播中验证,从而在保持与标准自回归解码相同输出质量的同时,提高了吞吐量。
表 3 | M2架构规模下的SFT基准测试:全注意力基线 vs. 混合SWA,涵盖通用推理/知识和智能体任务。通用基准:AIME 2025【26】、ARC-AGI-1【10】、GPQA-Diamond【40】、MMLU-Pro【47】、IFBench【37】。智能体基准:SWE-verified【20】、Terminal-Bench【28】、BrowseComp-zh【55】、GAIA-103【29】、XBench-ds【8】、??2-Bench【4】。粗体表示每行的最高分。
图 2 | M2中使用的多标记预测(MTP)模块架构。
训练数据。预训练语料库包含一个全面且精心策划的数据集,融合了包括网页文档、学术文献、书籍、编程代码和结构化问答内容在内的多样化来源。我们采用基于模型的奖励评分和辅助分类器相结合的方法,从多个维度评估文档质量,并应用一种平衡的采样策略,该策略在提升高质量内容权重的同,时保留了足够的类别多样性。
数据分布。预训练数据混合在不同领域之间进行了仔细平衡,其中代码、数学和STEM内容的采样比例相对于其自然分布被显著提高。剩余部分由通用网页内容、书籍和其他领域特定数据组成,确保了对世界知识和语言多样性的广泛覆盖。在预训练的恒定阶段,我们总共在19.9T token上进行训练。
长上下文扩展。在初始预训练阶段之后,我们采用多阶段训练程序,逐步将模型的上下文窗口从8K token扩展到32K,最终扩展到192K token。衰减阶段使用了总计9.3T token的数据预算,包括短文本衰减数据和长上下文数据,其中高质量的代码拼接、自然长篇的PDF文档以及主题相关的文档打包是长上下文训练样本的主要来源。在衰减阶段,我们混入高质量数据以巩固模型能力,同时扩展其有效上下文长度。
智能体编码数据收集领域。我们在三个互补的领域收集用于智能体编码的后训练数据:软件工程(SWE)、应用开发(AppDev)和终端交互任务,涵盖了代码仓库级别的代码演进、全栈开发和交互式终端环境。
图 3 | 用于SWE和AppDev任务的智能体编码数据管道。
SWE训练数据构建的挑战与方案。为编码智能体构建训练数据面临三个相互关联的挑战:实现广泛的任务多样性、确保客观可验证性,以及扩展到大规模训练所需的体量。GitHub作为一个丰富且结构自然的来源,为收集此类数据提供了便利:一个结构良好的拉取请求(pull request)包含了描述、相关的代码变更和提供客观正确性信号的测试用例。然而,原始的PR数据本质上是嘈杂的,不能直接使用,这促使我们构建了一个真实数据驱动的SWE扩展管道:一个基于原始GitHub数据的智能体驱动的自动化数据管道,用于生产多样化、可验证的SWE风格数据集和环境。具体来说,该管道按以下六个连续阶段进行。
智能体合成的多语言Docker环境。在SWE扩展管道中,我们旨在为每个PR构建一个可运行的Docker环境。然而,我们观察到在非Python环境中,由于异构的依赖和版本冲突,环境合成的可靠性较低。为了解决这个问题,我们引入了一个智能体驱动的执行循环,该循环融合了专家知识,能够根据执行反馈迭代地生成和优化构建脚本。我们解决的关键维度如下:
PR标记和任务多样化。为每个PR构建Docker环境后,我们进行PR级别的标记和路由。GitHub的PR涵盖了广泛的任务类型,包括错误修复、功能添加、性能优化、重构和测试构建。这种路由是必要的,因为不同的任务类型需要不同形式的下游可验证奖励。
基于测试的可验证奖励构建。我们设计了基于测试用例执行的任务特定奖励函数,因为不同的PR类型需要根本不同的评估标准。
基于模型的任务验证。原始的GitHub PR通常结构较弱,其关联的测试用例可能无法完全说明潜在问题,导致任务模糊或规格不足。为了缓解这个问题,我们使用一个模型来验证问题描述和测试用例之间的一致性,并在必要时丰富缺失的信息,从而产生自包含且可执行的任务规范。
SWE扩展管道的最终产出。SWE扩展管道最终生成一个大规模的训练数据集,其中每个实例都包含一个问题陈述、一个基于测试的可验证奖励和一个可运行的Docker环境。对于M2系列模型,该管道涵盖了十多种编程语言和广泛的编码任务类别。
AppDev任务的特点与挑战。虽然SWE任务侧重于对现有代码仓库的修改,如错误修复、功能添加和重构,但应用开发(AppDev)任务要求从零开始构建完整的应用程序。这带来了独特的挑战:任务不能直接从现有代码库中提取,质量信号需要超越静态分析的运行时验证,评估标准既包括功能正确性也包括主观的设计质量。为了应对这些挑战,我们设计了一个专家在环(expert-in-the-loop)的数据管道,它将领域专业知识与大规模的自动化验证相结合。领域专家贡献编码了生产级技术模式的元查询,精心制作指导轨迹生成的系统提示,并设计涵盖执行、交互和美学的评估准则。然后,一个作为验证者的智能体(Agent-as-a-Verifier, AaaV)框架通过在沙盒环境中部署生成的应用程序,并使用工具辅助的交互来对照专家定义的准则进行验证,从而执行自动化的拒绝采样。这个管道使我们能够跨多个领域(如前端、后端、移动、桌面和模拟)合。
专家在环的查询合成。我们通过结合专家设计的元查询和自动质量控制,合成了多样化、高质量的开发任务查询。来自工程团队的领域专家贡献了编码了他们领域知识的优化元查询。每个元查询都作为一个模板,捕捉了必要的技术模式,指定了框架生态系统(例如,React + Zustand + Tailwind)、架构约束和基于生产经验的现实用例。专家们策划了特定类别的种子池,涵盖UI组件库、CSS框架、构建工具、SaaS集成和常见的应用场景。这些元查询注入了受控的可变性:技术栈、样式方法和功能需求从专家策划的分布中采样,以确保多样性和技术有效性。元查询根据下游的质量信号进行迭代优化,允许专家修剪那些持续产生低质量输出的模式,并放大那些产生结构良好开发任务的模式。
多样化查询生成与质量控制。通过将元查询与随机采样的种子相结合,然后通过高温的LLM生成来最大化变体,从而合成了多样化的用户查询。每个元查询被扩展为多个描述具体开发任务的具体查询,涵盖功能需求、技术选择和UI/UX规范。为了控制冗余,我们应用基于MinHash的去重,以可配置的阈值在线性时间内实现近似的近乎重复检测。最后,我们通过在领域特定的准则上使用LLM作为裁判来评估每个查询的质量,这些准则分为三类:技术栈合理性(兼容性、选择适当性、组合有效性)、功能可行性(技术可实现性、描述具体性、UI/UX逻辑)和需求清晰度(有效性、场景真实性、表达连贯性、完整性)。得分低于特定阈值的查询将被拒绝。这确保了只有格式良好、技术上合理且范围现实的开发任务才能进入轨迹采样阶段。
使用专家系统提示进行轨迹采样。领域专家通过精心设计的系统提示将先验知识直接注入生成过程。这些提示编码了解决我们早期模型已知缺陷的最佳实践。例如,对于Web前端任务,专家观察到模型表现出次优的设计习惯,如过度使用模板式的渐变背景。为了纠正这些倾向,系统提示明确阐述了涵盖功能完整性、代码完整性、内容真实性和美学的设计指南和质量标准。除了设计指导,提示还鼓励开发过程中的最佳实践:在实现前编写规范,为复杂任务维护结构化的TODO列表,以及通过测试进行自我验证。我们还专门收集了针对技能使用和内化的轨迹,使模型能够学习何时以及如何有效利用技能。我们方法的一个关键要素是提示蒸馏:在轨迹采样期间,模型接收到完整的丰富系统提示,而在训练期间,我们选择性地丢弃部分指导。这种部分不对称性鼓励模型将专家编码的最佳实践内化为默认行为,从而减少其在推理时对明确提示的依赖。
基于准则奖励和验证者智能体的拒绝采样。与SWE任务中测试用例提供自然正确性信号不同,应用开发需要跨多个维度进行整体评估,而这些维度无法仅通过静态代码分析来评估。我们通过“作为验证者的智能体”(AaaV)来解决这个问题,这是一个通过在沙盒环境中部署生成的应用并利用工具辅助交互进行评估来验证轨迹的框架。评估分三个层次进行,为每个标准提供二元的通过/失败判断和强制性证据:
AaaV框架的优势。各层的总体通过率作为拒绝采样的奖励信号,其中执行层的检查作为立即拒绝的硬门槛。这种三层评估将AaaV与传统的LLM作为裁判的方法区分开来:验证者智能体不是从静态代码或截图中评估质量,而是主动地与运行中的应用程序进行多轮交互,根据专家定义的准则对观察到的行为进行评分。至关重要的是,我们严格筛选、多样化的查询分布与这种作为验证者的智能体评估范式之间的协同作用,为后续的强化学习建立了一个坚实的基础,既提供了丰富的探索空间,也提供了可靠的、基于环境的奖励信号。
Terminal-Gym的背景与目标。除了SWE-bench【20】之外,Terminal-Bench【28】在一个功能齐全的终端环境中评估智能体处理现实、复杂任务的能力,这对LLM的系统操作、调试和命令行能力提出了显著更高的要求。为了增强模型在这些能力上的表现,我们提出了Terminal-Gym,一个自动化的数据合成管道,它系统地将精选的真实世界编程场景转化为一个多样化的、可验证的终端任务语料库。通过生成结构化的任务模式、动态演进的查询难度以及自动合成鲁棒的基于Docker的运行时环境,它为终端智能体提供了一个高度可扩展的训练框架。
种子数据集选择。Terminal-Gym以完整的Stack Overflow数据集为基础,该数据集大规模提供了高质量、真实的编程和系统操作场景。在按时间顺序对原始数据进行排序以重建完整的帖子后,我们应用了严格的基于规则的过滤。我们丢弃了缺少被接受答案的帖子、得分低的帖子以及过长的查询-答案对。为了严格关注终端场景,我们按标签进行过滤,仅保留与终端操作、系统配置、调试、脚本编写和相关软件工程工作流相关的线程。然后,为每个剩余的帖子标注多个属性,包括问题质量、任务类型适用性、可验证性、任务类别、大致复杂性、环境要求和执行特性。我们只选择满足严格标准的帖子:它们必须是可脚本化的、与终端兼容的、可验证的、与Linux/Docker相关的,并且难度适中。最后,我们丢弃每个线程中嘈杂或冗余的内容,并选择一个高质量的答案,形成基础的查询-答案对。
查询合成。我们进一步将选定的查询改写为结构化的任务描述。这包括具体化执行上下文,包括必要的环境、所需工具、预期的输入输出格式和成功标准。这些重写的任务随后根据可测试性、完整性和清晰度被分级为四个等级;只有排在前两级的任务被保留。原始的查询-答案对因此被转换为一个结构化模式,其中包含自然语言指令、任何必要的支持文件或脚本,以及对预期终端行为的简洁描述。
合成管道。每个结构化模式都经过一个三阶段的转换,成为一个完整的终端任务。
* 阶段1:环境和测试生成。一个智能体为每个任务生成一个Dockerfile和相应的测试脚本。执行测试以验证功能。如果测试失败,结构化的诊断反馈会返回给智能体进行迭代修复,这个过程会一直持续到测试通过或达到最大重试次数。
* 阶段2:查询演进和统一测试。前几个步骤生成的任务指令通常包含明确的提示、文件路径或预期的环境输出。为了解决这个问题,我们应用了一个受控的查询演进过程,系统地抽象或移除这些提示,同时确保语义一致性。然后,一个任务的所有变体都使用由LLM生成的统一测试套件进行评估。这种统一的测试方法迫使测试验证任务的底层逻辑,而不是过拟合于特定的描述风格或明确的提示。实验结果证明了该方法在确保鲁棒评估方面的有效性。
* 阶段3:难度校准。最后,我们严格过滤掉过于简单的任务。我们优先采样那些包含较少提示且零样本通过率较低的任务变体。这个过滤过程考虑了参考求解器的历史通过率和环境合成过程中所需的修复迭代次数,确保最终的基准测试保持高度挑战性和区分度。
Terminal-Gym的贡献与未来发展。最终,Terminal-Gym为复杂的终端操作提供了一个高度可扩展的训练框架,我们现在正将其发展为零干预的Anything2Docker系统。此外,鉴于代码安全日益重要,我们正在进一步扩展CVE-Factory【24】,以涵盖更广泛的自主网络安全研究前沿,推动AI驱动的漏洞分析和主动防御机制的边界。
智能体协同工作的数据收集理念。除了编码和终端任务中可用的可验证信号外,现实世界的部署还需要智能体能够在异构的专业环境中操作——在开放网络上导航以查找一手资料、对财务电子表格进行推理、撰写演示文稿,以及生产最终用户实际使用的更广泛的办公产物。智能体协同工作(Agentic Cowork)是这些能力背后的数据收集轨道,围绕四个领域组织:深度搜索和开放网络研究、知识工作者办公任务、财务分析和电子表格操作,以及幻灯片生成。尽管每个领域都在不同的工作空间中操作并产生不同的产物,但所有四个领域都遵循相同的设计。任务在真实、可运行的工作空间中实例化;轨迹是从一组轮换的强教师模型中,在故意扰动的支架下提炼出来的;接受与否由与产物格式对齐的验证信号决定,而不是由单一的通用裁判决定。对于结果不能直接由机器验证的子任务,我们收集多个候选响应,并通过沿两个轴——推理与行动轨迹和最终产物——进行成对比较来选择,然后进行基于准则的过滤,强制执行严格的准确性和质量标准。接下来我们描述每个领域如何实现这个共享的管道。
任务设计与数据生成。该领域针对的任务要求智能体在开放网络上导航,跨多个来源收集证据,并合成一个有根据的答案。为了大规模地生成此类任务,我们采用了一种“引导与重写”的合成策略。从一个种子问题开始,我们迭代地重写问题并模糊其所依赖的实体,直到任务变得足够困难,能够区分强弱智能体。这个过程使我们能够连续控制任务难度,使得简单变体可以练习基本检索,而更难的变体则需要深度、多步骤的浏览和跨源佐证。为了防止模型学会捏造听起来合理的答案,每个合成的任务都配有一个明确的证据规范,只有当其答案是基于实际检索到的证据而不是从模型记忆中背诵出来时,一个采样的轨迹才会被接受。对于没有唯一简短答案的更广泛的、报告式的查询,我们将精确匹配的接受标准替换为基于准则的裁判,该裁判从事实准确性、透明度、不确定性处理和风险披露等方面进行评分。轨迹是从一组轮换的强教师模型中提炼出来的,并且围绕的支架在不同运行中受到扰动,以便最终的策略能够泛化到任何单一的工具布局之外。
任务范围与语料库构建。该领域涵盖了知识工作者日常工作中产生的广泛的端到端专业交付成果——报告、幻灯片、备忘录、结构化文档。我们将语料库锚定在GDPval【35】这一成熟的办公任务基准上,并通过一个模仿真实专业人士组织工作的合成管道对其进行扩展。
种子任务筛选。我们首先从种子基准中筛选出一个可用的规范任务子集,过滤掉那些我们智能体框架不支持的项目,以便种子部分为语料库的其余部分提供一个清晰、可执行的锚点。
分层合成。在这个锚点的基础上,我们通过一个分层的、多阶段的程序生成一个规模大得多的自合成语料库。我们从公共职业数据库中获取的广泛职业类别开始,并派生出包含文化和区域多样性的细粒度子类,确保了跨行业、地区和文化背景的广泛覆盖。对于每个子类,我们生成具体的任务以及模拟真实工作场景的详细任务描述,将数据植根于真实的专业活动中,而不是抽象或通用的指令。对于每个任务,我们进一步生成一个真实的辅助文档工作空间和几个不同具体程度的查询版本,将高层次的任务描述转化为具体的、可操作的问题设置,并让模型接触到各种用户表达风格。每个任务还附带一个对预期交付成果的结构化规范,以便合成、执行和接受都共享相同的产物格式。
多轴准则接受。接受与否由一个多轴准则决定,该准则涵盖积极行为、消极行为、关键错误、区域适宜性和推理深度,并统一应用于种子部分和自合成部分。一个类型化的清理过程进一步移除了捏造数据、参考文献或实体的轨迹,以便最终语料库中只保留符合严格事实标准的产物。
任务族与合成管道。该领域涵盖了两个互补的任务族,共同构成了金融专业人士的日常工作:基于真实金融工具的财务信息检索、计算和推理;以及对真实工作簿的电子表格操作。这两个任务族由不同的任务合成管道构建,但共享相同的下游接受和脚手架机制。
证据驱动的合成。对于第一个任务族,我们采用了我们早期工作中引入的证据驱动任务合成管道【7】,该管道颠倒了传统的自上而下的创作顺序:我们首先执行真实的金融工具以收集有根据的执行轨迹,然后反向推导出那些被这些轨迹严格蕴含的任务。这通过构建实现了依据性——每个任务,根据设计,既是可执行的,也是可以从可观察的工具输出中验证的,并且参考答案完全由工具实际返回的内容决定。
工作簿行走合成。对于第二个任务族,我们转而通过“工作簿行走”来构建语料库,其精神类似于(Liu等人,2025b)【23】等轨迹驱动的合成方法。一个智能体对一个种子工作簿运行一组精选的原子电子表格操作,它遍历的中间状态被回收为新的种子,并且在每个产生的轨迹上,我们逆序合成任务,从轨迹中推导出答案,再从答案中推导出问题。最后一步沿着措辞和难度轴多样化产生的问题池。
覆盖范围。第一个任务族针对的是检索、计算和推理问题,其答案必须基于外部金融数据。第二个任务族涵盖三个子轨道:涉及工作簿结构理解、公式应用和跨表操作的通用和竞赛级电子表格操作;跨越典型PE、VC和并购场景的财务建模;以及从半结构化源文档重建结构化工作簿。
接受标准。接受标准优先考虑确定性的值级别匹配。学生的产物被执行,其公式由外部引擎重新计算,并将得到的单元格值与基准工作簿进行比较。对于形式可能合理变化的可交付成果,例如从半结构化文档重建的工作簿或开放式财务推理子任务,我们退回到基于准-则或基于智能体的评判。每个任务还在多个脚手架下进行采样,以便最终的策略对工具接口的变化具有鲁棒性。
任务流与合成管道。该领域既针对端到端的幻灯片创建,也针对增量的幻灯片编辑,因此合成管道相应地沿着两个平行的流程进行。第一个流程将幻灯片创作视为一个开放式的生成问题。我们策划了一组跨商业领域的不同源文档,并为每个文档推导出在描述粒度、长度和语言风格上各不相同的查询,以便生成的任务能够跨越真实的用户请求分布。第二个流程将幻灯片编辑视为一个局部干预问题。我们采样真实的幻灯片作为种子,并沿着多个多样性轴生成编辑指令,包括编辑的粒度(从单个元素到页面再到文档级别)、编辑的意图(内容、风格或结构),以及变更的复杂性。轨迹是从一组轮换的强教师模型中提炼出来的,优先选择那些其生成物展现出我们希望学生继承的视觉质量的教师。因为幻灯片产物最终是视觉消费的,所以接受标准分层了多个互补的信号:执行成功、由智能体判断的功能正确性、对基本布局美学的基于规则的检查,以及一个最终的视觉评分器,它渲染可交付成果并将其作为图像进行评判。为了防止策略过拟合于单一的渲染工具包,我们还混合了在替代幻灯片生成库下产生的轨迹。
推理数据的核心目标与扩展策略。推理数据的核心目标是让模型具备在复杂问题上进行深度、结构化思考的能力——证明数学定理、推导科学结论、设计算法和构建逻辑论证。这些任务跨越众多领域,并且在每个领域内,单个问题又允许各种有效的解决策略,从而导致任务和方法的组合空间。这种规模和多样性自然地激发了一种以扩展为驱动的方法。我们沿着三个互补的轴进行扩展,并同时维护一个质量保证管道,以确保大规模数据的正确性。
查询侧扩展。扩展独特问题的集合,特别是在代表性不足的难度区间,直接提高了覆盖范围和泛化能力。我们结合从现有来源的策展和针对通过错误分析识别出的技能差距进行的新问题定向合成。
响应侧扩展。为每个查询生成多个正确的解决路径可以提高推理的多样性。随着每个查询的响应数量增加,跨领域能力持续改善,其益处主要体现在OOD(out-of-domain)泛化上,这表明多样化的解决路径教授的是可转移的推理策略,而不是解决方案的记忆。我们分析了不同难度层次的饱和特性,并在模型解决方案多样性仍然较低的地方集中进行额外采样。
训练侧扩展。除了独立扩展查询和响应,我们还研究了在固定计算预算下的最佳数据混合比例——即查询扩展与响应扩展的相对比例。前者提高了问题覆盖范围和领域广度,而后者则加深了模型对解决方案策略空间的掌握。我们根据当前能力瓶颈所在,经验性地为每个训练阶段校准这种混合比例,并采用动态分配,将资源集中在模型的薄弱区域。
质量保证。大规模扩展带来了噪声和不正确数据的风险。为了保持正确性,我们在管道的每个阶段都实施质量控制。对于查询,我们应用多阶段清理,结合直接查询标记和对展开响应的交叉比较,以识别模糊或格式不佳的问题。对于验证器,我们进行系统的案例分析,以覆盖更多的边界条件和边缘情况,确保验证逻辑在不同问题类型中保持准确。对于答案,我们通过比较多个模型的性能差异来交叉检查正确性,标记出分歧表明可能存在标签错误的情况。对于响应,我们在将推理轨迹纳入训练语料库之前,应用一个结构化的基于准则的评分框架,该框架沿明确定义的质量维度评估推理轨迹。
数据构成与目标。该轨道以涵盖写作、通用问答和多轮对话的广泛覆盖性对话数据,补充了上述的智能体和推理语料库。该语料库主要由具有长链式思考(long CoT)推理的高质量样本组成,旨在向模型灌输推理能力,同时保持其通用能力,并为后续的强化学习提供一个稳定的冷启动基础。
各子领域的侧重点。每个子领域都有其独特的重点。对于写作,主要关注的是风格:精心策划高质量的查询,以使响应遵循特定的风格标准,捕捉语调、结构和表达的细微差别。写作管道中还集成了一个文件系统,使模型能够读写结构化文档,从而将其写作能力与现实世界的生产力场景对齐。对于通用问答,查询往往相对直接,重点转向从多个候选响应中选择,以满足偏好对齐的质量要求。对于多轮对话,重点在于在更复杂的交互环境中遵循指令和准则——在多轮中保持持续的连贯性、跨轮的上下文跟踪以及在长上下文中的鲁棒理解。
增强模型能力与鲁棒性的策略。为了进一步增强模型的能力和鲁棒性,数据集包括了工具增强和无工具的样本。工具增强的样本教会模型在适当时有效利用外部工具,如代码解释器和搜索引擎,而无工具的样本确保模型可以在不依赖外部辅助的情况下独立推理。这种平衡的构成使模型能够灵活适应多样的交互场景。
数据验证。生成后,所有数据都通过自动验证器(基于规则的检查器和基于模型的评估器)进行严格验证,并进行系统性的质量检查,以确保在被纳入训练管道之前既正确又保持一贯的高质量。
角色扮演数据轨道的建立。为了支持基于角色设定的长周期对话——这是之前通用对话轨道未涉及的一个主要真实世界部署模式——我们将角色扮演视为一个独立的数据轨道,拥有自己的形式化定义、基准测试、合成管道和奖励信号。
角色扮演的形式化定义与评估。我们根据(MiniMax AI, 2026)【32】将角色扮演形式化为在{世界}×{故事}联合空间上,以{用户偏好}为条件的长期条件生成。其核心目标是在扩展的多轮对话中保持物理、叙事和风格上的一致性。基于“不一致是客观可检测的,而一致是主观的”这一洞察,我们引入了RolePlay Bench,它通过惩