Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

发表时间: 2026-03 · arXiv:2603.19220 (NVIDIA)

文章标题: Nemotron-Cascade 2: 通过级联强化学习和多领域在线策略蒸馏对大语言模型进行后训练
作者/机构: Zhuolin Yang, Zihan Liu, Yang Chen, Wenliang Dai, Boxin Wang, Sheng-Chieh Lin, Chankyu Lee, Yangyi Chen, Dongfu Jiang, Jiafan He, Renjie Pi, Grace Lam, Nayeon Lee, Alexander Bukharin, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

A1 主要贡献

本文介绍了 Nemotron-Cascade 2，一个拥有300亿参数（30亿激活参数）的开源混合专家（MoE）模型。该研究旨在解决将强化学习（RL）扩展到多方面、真实世界应用中的挑战，即如何在不破坏训练过程稳定性的前提下，处理多样化的奖励信号和复杂的环境反馈。

核心问题与研究目标：
随着模型被赋予日益复杂的需求，成功地整合更广泛的RL环境以及多样化的推理和智能体任务成为主要挑战。Nemotron-Cascade 2的目标是构建一个强大的框架，以处理多样化的奖励信号和复杂的环境反馈，同时避免训练过程的不稳定。

主要创新点：
1. 扩展的级联强化学习（Cascade RL）：在前作 Nemotron-Cascade 1 的基础上，该工作大幅扩展了级联强化学习的范围，覆盖了更广泛的推理和智能体领域。级联RL通过按领域顺序进行序贯RL训练，简化了多领域RL的工程复杂性，并能有效抵抗灾难性遗忘。
2. 多领域在线策略蒸馏（Multi-Domain On-Policy Distillation, MOPD）：在级联RL的各个阶段中引入了在线策略蒸馏。通过从每个领域中表现最好的中间教师模型中蒸馏知识，该机制能有效恢复在复杂RL环境中训练时可能出现的基准性能衰退，并持续获得性能增益。
3. 多领域RL的集成：对于响应格式相似且验证成本相当的任务组，将它们整合到多领域RL中进行联合训练。这在任务间干扰最小的情况下，扩展了RL环境的规模并提高了训练效率。
4. 卓越的性能和智能密度：尽管模型规模较小（30B MoE），Nemotron-Cascade 2在数学和编程推理方面取得了突破性表现，在2025年国际数学奥林匹克（IMO）和国际信息学奥林匹克（IOI）中均获得金牌水平的成绩，展现了极高的智能密度（比同类前沿模型参数少20倍）。
5. 全面开源：研究团队发布了模型权重、训练数据和方法细节，使研究社区能够复现、分析和扩展所提出的级联RL训练范式。

A4 实验结果（主要结果）

Nemotron-Cascade 2 在一系列涵盖数学与编程推理、知识与STEM、对齐与指令遵循、长上下文理解与学习、多语言能力以及智能体任务的综合基准上进行了评估。

主要性能表现（表1）：
Nemotron-Cascade-2-30B-A3B 在数学、代码推理、通用对齐和指令遵循等基准上，其性能优于最新发布的 Qwen3.5-35B-A3B (2026-02-24) 和规模更大的 Nemotron-3-Super-120B-A12B (2026-03-11)，达到了同类最佳水平。

表1：主要结果。Nemotron-Cascade-2-30B-A3B在IMO 2025和IOI 2025中均取得了金牌水平的性能，展现了极高的智能密度。† 括号中的数字指工具集成推理（TIR）的结果。‡ 对于基线模型，我们使用官方数据（若有），否则使用推荐设置进行评估。

顶级竞赛表现（表2）：
值得注意的是，尽管只是一个30B的MoE模型，Nemotron-Cascade 2在IMO 2025、IOI 2025和ICPC世界总决赛2025中均获得了金牌水平的成绩。这些成果之前被认为只有前沿的专有模型（如Gemini Deep Think）和前沿规模的开源模型（如DeepSeek-V3.2-Speciale-671B-A37B）才能达到。

表2：Nemotron-Cascade-2-30B-A3B模型在IMO 2025、IOI 2025和ICPC世界总决赛2025竞赛中的表现。Nemotron-Cascade-2模型在所有这些顶级竞赛中均获得了稳固的金牌。我们的IMO 2025解决方案由人类专家（2015年IMO金牌得主）评估，而IOI 2025和ICPCWF 2025的解决方案通过带有官方测试用例的OnlineJudge进行验证。† 对于IMO 2025 P2，由于模型采用了广泛的解析几何方法，人类专家难以验证所有中间推导步骤，因此我们使用了带有ProofBench（Ma等人，2025）参考解决方案和评分方案的LLM评分器。

训练流程有效性：
Nemotron-Cascade-2-30B-A3B 在几乎所有基准上都优于 Nemotron-3-Nano-30B-A3B，尽管两者都是从相同的预训练模型 Nemotron-3-Nano-30B-A3B-Base 后训练而来。这进一步证明了本文提出的“级联RL + MOPD”训练流程的有效性。

待改进之处：
模型在知识密集型和智能体基准上表现不及 Qwen3.5-35B-A3B，这凸显了未来工作中加强知识密集型预训练和智能体RL的重要性。

3. 监督式微调（SFT）

本节描述了后训练流程的第一阶段——监督式微调（SFT）的训练框架和数据整理过程。此阶段为模型赋予了基础能力，包括推理、对话能力、指令遵循以及智能体和软件工程技能。

3.1. 训练框架

3.1.1. 概述

SFT数据涵盖广泛领域。我们的SFT数据跨越了多个领域，包括数学、编码、科学、工具使用、智能体任务和软件工程，以及更通用的领域，如多轮对话、知识密集型问答、创意写作、角色扮演、安全和指令遵循。

单阶段训练与最佳性能。我们将所有SFT样本打包成最长达256K个词元（token）的序列，并进行单阶段训练。根据经验，我们发现SFT模型在训练约1.5个周期（epoch）后达到最佳性能。SFT训练的超参数详见附录B。

3.1.2. 对话模板

对话模板的简化与调整。我们的对话模板如图1所示。与Nemotron-Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】相比，有两个变化。首先，为了简化，我们移除了/think和/no_think标签。其次，我们在前面添加一个空的<think></think>块来激活非思考模式。

工具调用格式。对于工具调用任务，我们在系统提示（system prompt）的<tools>和</tools>标签内指定所有可用工具，并指示模型在<tool_call>和</tool_call>标签内执行工具调用。

图1：（左）对话模板使用相邻的<think></think>词元表示非思考模式，使用单个<think>后跟\n表示思考模式。（右）对于工具调用，可用工具在系统提示中列出。模型被指示在<tool_call>和</tool_call>标签内调用工具。

3.2. SFT数据整理

3.2.1. 数学

非证明类数学数据。我们的非证明类数学提示主要来源于Nemotron-Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】和Nemotron-Math-v2【15, Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision, 2025】。我们从中收集了180万个工具调用（即python）样本和190万个非工具样本，其响应分别由DeepSeek-V3.2和DeepSeek-V3.2-Speciale【39, Deepseek-v3. 2: Pushing the frontier of open large language models, 2025】生成。此外，我们从Nemotron3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的生成-选择类别（无工具调用）中收集了67.6万个样本，其响应由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成。总计，竞赛数学SFT包含180万个工具调用样本和260万个无工具使用样本。

数学自然语言证明数据。我们从Nemotron-Math-Proofs-v1【15, Nemotron-math: Efficient long-context distillation of mathematical reasoning from multi-mode supervision, 2025】的AOPS分割中收集了9.8万个数学证明问题。我们使用DeepSeek-V3.2-Speciale【39, Deepseek-v3. 2: Pushing the frontier of open large language models, 2025】为每个问题生成多个样本，以涵盖证明生成（41万）和证明验证（40万）两种能力，总计产生81.6万个样本。

3.2.2. 代码推理

代码推理数据整理与去重。在Nemotron-Cascade 1【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的基础上，我们从多个开源数据集（包括OpenCode-Stage2【30, Opencoder: The open cookbook for top-tier code large language models, 2024】、OpenCodeReasoning【4, Opencodereasoning: Advancing data distillation for competitive coding, 2025】和HardTests【26, Hardtests: Synthesizing high-quality test cases for llm coding, 2025】）中整理了约16.5万个独特的编码提示。这些提示最初来源于Codeforces、AtCoder、AIZU和CodeChef等竞赛编程平台。为了增加提示多样性并减少SFT训练集中的冗余，我们使用两种方法进行严格去重：（1）样本I/O指纹识别和（2）基于n-gram的文本分析。此过程移除了约24.2%的自重复编码提示。

教师模型与数据筛选。我们选择GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】作为SFT教师模型，因其强大的代码推理能力。对于每个带有可验证测试用例的编码提示，我们对教师的推理轨迹进行正确性过滤，只保留生成正确代码的轨迹。对于没有可验证测试用例的提示，我们通常选择更长的推理轨迹，假设它们反映了更彻底的问题分析。此流程最终产生了一个包含190万条Python推理轨迹、100万条C++14推理轨迹和130万条用于竞赛编码的Python工具调用推理轨迹的数据集。

科学编码数据。我们进一步收集了涵盖生物学、材料科学、物理学、化学和数学领域的科学研究编码提示。这些提示的响应由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成，总计110万个SFT样本。

3.2.3. 科学

科学领域数据来源。我们收集的科学提示涵盖物理、化学和生物学。我们使用了来自Nemotron-Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的140万个科学SFT样本，以及来自Nemotron-3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的另外130万个样本。这两个数据集中的响应均由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成。

3.2.4. 长上下文

长上下文数据来源与规模。我们采用了来自Nemotron-3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的16万个长上下文SFT数据，其平均序列长度为128K词元。此外，我们从ChatQA-2【77, Chatqa 2: Bridging the gap to proprietary llms in long context and rag capabilities, 2024】收集了另外7.4万个长上下文SFT样本，其平均长度为29K词元。

3.2.5. 通用对话

通用对话数据来源与生成。我们从Nemotron-Cascade 1【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】获取提示，并构建了490万个“思考开启”（reasoning-on）样本和37.2万个“思考关闭”（reasoning-off）样本。思考开启样本的响应由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成。对于思考关闭样本，30万个响应来自数据集本身内高质量的带标注短答案，另有33万个由DeepSeek-V3-0324【38, Deepseek-V3 technical report, 2024】生成以提高响应质量。

多轮对话数据合成。为了增强多轮对话能力，我们使用两个GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】实例在角色扮演设置中合成了约70万个多轮对话样本，其中一个实例扮演用户，另一个扮演助手。用户侧模型可以在任何时候终止对话，以防止重复交流。

额外对话数据。我们还整合了来自Nemotron-3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的460万个思考开启对话样本，其提示来源于LMSYS【85, Lmsys-chat-1m: A large-scale real-world llm conversation dataset, 2023】和WildChat【84, Wildchat: 1m chatgpt interaction logs in the wild, 2024】。响应由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】、Qwen3-235B-A22B-Thinking-2507和Qwen3-235B-A22B-Instruct-2507【79, Qwen3 technical report, 2025】生成。

3.2.6. 指令遵循

指令遵循数据来源与生成。我们从Nemotron-Cascade 1【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】获取提示，并使用GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成了约23万个思考开启响应，使用DeepSeek-V3-0324【38, Deepseek-V3 technical report, 2024】生成了6.4万个思考关闭响应。此外，我们整合了来自Nemotron-3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的49.7万个指令遵循样本，包括45.7万个思考开启响应和4万个思考关闭响应。这些响应由GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】、Qwen3-235B-A22B-Thinking-2507和Qwen3-235B-A22B-Instruct-2507【79, Qwen3 technical report, 2025】生成。

3.2.7. 安全

安全数据来源。我们从Nemotron-3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】收集了4000个安全SFT样本，以使模型在遇到不安全输入时能表现出适当的拒绝行为。SFT提示最初来源于Nemotron Content Safety v2【21, Aegis2. 0: A diverse ai safety dataset and risks taxonomy for alignment of llm guardrails, 2025】、Gretel Safety Alignment v1【1, Gretel synthetic safety alignment dataset, 2024】、Harmful Tasks【25, Pruning for protection: Increasing jailbreak resistance in aligned llms without fine-tuning, 2024】和Red-Team-2K【44, Jailbreakv: A benchmark for assessing the robustness of multimodal large language models against jailbreak attacks, 2024】。

3.2.8. 对话智能体

对话智能体工具使用数据。除了用于数学和代码推理的Python工具使用数据外，我们还收集了多轮对话设置中的工具使用样本，其中有多种工具可用，助手必须决定调用哪些工具以及如何有效使用它们。我们从Nemotron3-Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】收集了82.2万个对话式工具使用样本，响应由Qwen3-235B-A22B-Thinking-2507、Qwen3-32B、Qwen3-235B-A22B-Instruct-2507【79, Qwen3 technical report, 2025】和GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】生成。

3.2.9. 软件工程智能体

软件工程（SWE）数据整理。我们使用多种智能体脚手架（agentic scaffolds）来整理软件工程（SWE）数据，包括OpenHands【70, Openhands: An open platform for AI software developers as generalist agents, 2025】、SWE-Agent【80, Swe-agent: Agent-computer interfaces enable automated software engineering, 2024】、Mini-SWE-Agent以及Wei等人【74, Swe-rl: Advancing llm reasoning via reinforcement learning on open software evolution, 2025】提出的无智能体（agentless）脚手架，以增强模型的智能体软件工程能力。首先，我们利用了Nemotron 3 Nano【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】和Super【9, Nvidia nemotron 3: Efficient and open intelligence, 2025】的数据，其中包括使用Qwen3-Coder-480B-A35B-Instruct【79, Qwen3 technical report, 2025】生成的SWE智能体轨迹。问题实例来源于SWE-Gym【57, Training software engineering agents and verifiers with swe-gym, 2025】、SWE-rebench【5, Swe-rebench: An automated pipeline for task collection and decontaminated evaluation of software engineering agents, 2025】和R2E-Subset【33, R2e-gym: Procedural environments and hybrid verifiers for scaling open-weights swe agents, 2025】。其次，我们采用了来自Nemotron-Cascade 1【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的无智能体SWE数据，包括三个主要任务：（1）错误代码定位，（2）代码修复，和（3）测试用例生成。我们遵循Wang等人【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的既定程序，使用DeepSeek-V3.2【39, Deepseek-v3. 2: Pushing the frontier of open large language models, 2025】重建了代码修复数据。

结合智能体与无智能体数据的效果。我们的初步研究表明，整合无智能体SWE数据能提高模型在SWE智能体任务上的效果。例如，仅在智能体数据上微调，在SWE-bench Verified上使用OpenHands的Pass@1为48.9，Pass@4为62.8；而在智能体和无智能体数据的组合上微调，性能提升至Pass@1为49.9，Pass@4为65.2。基于这一观察，我们将12.5万个智能体样本和38.9万个无智能体样本组合作为SWE任务的监督微调（SFT）数据。我们的模型在SWE智能体数据上以非思考模式训练，在无智能体数据上以思考模式训练。

3.2.10. 终端智能体

终端任务数据生成方法。为了增强终端使用的智能体能力，我们采用Terminal-Task-Gen方法论【60, On data engineering for scaling llm terminal capabilities, 2026】来整理我们的训练任务。该框架包括：（1）将静态数据转换为交互式终端格式的数据集适配器，和（2）从多样的种子提示和结构化的终端技能分类法生成的合成任务。我们使用此框架总共整理了49万个样本。具体来说，我们首先从现有的高质量来源【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】适配了16.2万个数学、3.2万个代码和3.2万个SWE特定样本，这建立了广泛的基础覆盖。为了进一步提高目标技能的精炼，我们合成了12万个基于种子的任务和14万个基于技能的任务。对于轨迹构建，我们利用上述整理的任务，并使用DeepSeek-V3.2【39, Deepseek-v3. 2: Pushing the frontier of open large language models, 2025】作为核心引擎，在隔离的Docker环境中通过执行-反馈循环生成逐步的解决方案轨迹。Terminus 2智能体框架【49, Terminal-bench: Benchmarking agents on hard, realistic tasks in command line interfaces, 2026】作为底层的脚手架和工具使用协议，使模型能够与终端交互并完成复杂任务。

A3 & A2 级联强化学习与多领域在线策略蒸馏

A3 背景知识/设计原则

4.1.1. 级联强化学习的顺序是如何决定的

级联RL顺序的动态性与SFT数据的影响。级联RL（Cascade RL）流程中各阶段的最佳顺序并非一成不变，而是模型底层行为和学习轨迹的动态函数。与原始的Nemotron Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】不同，我们当前的工作Nemotron-Cascade 2在SFT数据质量上进行了显著改进，并大幅扩展了RL环境和任务的复杂性。这些进步从根本上改变了模型的行为动态，要求我们采用不同的顺序来更好地适应大语言模型不断演进的能力。

基本原则：减轻领域间干扰。具体而言，这种排序的理由主要是为了在模型与日益多样化的环境交互时减轻灾难性遗忘。级联RL提供了一个精细的视角，使我们能够观察特定领域之间如何竞争或冲突，例如IF-RL中的严格指令遵循与RLHF中的人类偏好对齐。我们的核心设计原则是找到一个能最小化领域间负面干扰的顺序，同时彻底优化最高优先级的领域。通过识别哪些任务作为基础先验，哪些作为专门的精炼，我们可以减轻领域间的干扰。

通过多领域集成进行扩展。遵循这一原则，当发现特定领域之间无冲突或对整体性能有益时，级联RL流程可以整合多领域RL阶段。随着RL环境和数据集复杂性的增加，这种集成方法尤其有效，同时能确保模型在各种基准上保持广泛的性能表现，详见§4.3。

通过在线策略蒸馏实现稳定。此外，我们发现多领域在线策略蒸馏（§4.4）在这一排序中起到了关键的稳定作用。它能有效地恢复在级联RL早期、更专门化的阶段中可能衰退的基准性能，从而得到一个更均衡、更鲁棒的最终策略模型。

A2 方法细节

我们采用了与Nemotron-Cascade 1【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】类似的方法，将级联强化学习（Cascade RL）作为我们的后训练流程。特别地，我们在级联RL过程中集成了多领域在线策略蒸馏（MOPD）。

图2：Nemotron-Cascade 2在SFT之后，按照领域的顺序应用级联RL，从而在相应领域取得了显著的改进。

4.1. 训练框架

训练流程概述。我们在图2中展示了我们的训练过程。在这项工作中，我们从指令遵循强化学习（IF-RL，§4.2）开始级联RL过程，以建立基础的指令遵循能力；接着进行多领域RL（§4.3），以增强模型的工具调用能力、STEM推理和响应格式遵循能力。然后，我们过渡到多领域在线策略蒸馏（§4.4），将专门的专业知识统一到一个单一、连贯的策略中，以减轻性能下降。我们继续进行RLHF（§4.5）以实现人类对齐，长上下文RL（§4.6）以增强对海量输入序列的推理能力，代码RL（§4.7）以解决竞赛编程问题，最后是SWE RL（§4.8）以掌握智能体软件交互。

4.1.2. RL训练配置

RL训练算法与配置。在整个级联RL过程中，我们遵循Nemotron Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的做法，使用组相对策略优化（Group Relative Policy Optimization, GRPO）算法【64, DeepseekMath: Pushing the limits of mathematical reasoning in open language models, 2024】进行严格的在线策略（on-policy）训练。我们采用在线策略训练以提高稳定性和准确性。我们的训练使用Nemo-RL仓库【51, NeMo RL: A Scalable and Efficient Post-Training Library, 2025】进行。

在线策略更新机制。在每次迭代中，我们从当前策略$\pi_{\theta}$生成一组$G$个rollouts，然后执行一次梯度更新。这确保了用于数据收集的策略始终与正在更新的策略相匹配，使得重要性采样比率恰好为1。这种在线策略设置有助于稳定的RL训练并减轻熵崩溃。此外，我们完全移除了KL散度项，这将GRPO目标函数简化为标准的REINFORCE目标函数【75, Simple statistical gradient-following algorithms for connectionist reinforcement learning, 1992】，带有组归一化奖励和词元级损失（token-level loss）【82, DAPO: An open-source LLM reinforcement learning system at scale, 2025】：

其中，${r_g}{g=1}^G$表示分配给给定问题$q$（从数据集$D$中抽取）的采样响应${y_g}^G$的一组$G$个奖励，这些响应在RLVR（来自可验证奖励的强化学习）中根据真实答案$a$进行验证。对于RLHF（来自人类反馈的强化学习），$r_g$是来自生成式奖励模型对响应$y_g$和问题$q$的聚合奖励分数。不同领域的奖励函数细节将在相应的小节中提供。

4.2. 指令遵循强化学习 (IF-RL)

IF-RL阶段的目标。在本小节中，我们描述了我们的指令遵循RL方法，它作为我们级联RL的第一个阶段。我们证明，应用可验证的IF-RL能显著提高指令遵循能力，在IFBench【61, Generalizing verifiable instruction following, 2025】上达到了83.13%的SOTA准确率。

4.2.1. 数据集

数据集的特点。我们使用与NVIDIA Nano-v3后训练【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】相同的指令遵循训练数据。该数据集中的指令被设计为可客观验证的，例如，要求响应在200词以内。这使得该数据集非常适合用于训练和评估模型的严格遵循能力。鉴于数据的高基线质量，我们的整理过程主要解决了某些指令类型（例如，count_increment_word）的关键字参数中的格式不一致问题。

4.2.2. 训练方法

动态过滤技术的应用。我们遵循Wang等人【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的方法，应用了动态过滤（dynamic filtering）【82, DAPO: An open-source LLM reinforcement learning system at scale, 2025】。该技术会过滤掉所有rollouts要么完全正确要么完全错误的样本。通过确保批次中的每个提示都提供有效的梯度，动态过滤稳定了IF-RL的训练并推高了模型性能的上限。此外，我们观察到长时间的IF-RL训练会导致过度的词元使用，这在通用对话领域中对于满足特定约束通常是不必要的。为了缓解这个问题，我们应用了超长惩罚（overlong penalty），即对未能在最大序列长度内完成生成的样本给予零奖励。

IF-RL阶段的策略调整。与Nemotron Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】不同，我们将IF-RL定位为级联RL训练的第一个阶段，原因有二：（i）IF-RL可能对人类对齐能力（例如ArenaHard）产生负面影响，而我们后续基于生成式奖励模型的RLHF对指令遵循得分的影响可以忽略不计。通过优先处理指令遵循，我们可以专注于最大化指令遵循性能，然后利用后续阶段来恢复和改进人类偏好对齐。（ii）早期的IF-RL阶段会产生一个具有卓越指令遵循能力的模型，这为后续的多领域在线策略蒸馏提供了一个强大的教师模型。另一个与Nemotron Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的不同之处在于，我们的IF-RL完全在“思考模式”下训练，没有整合奖励模型。我们发现“思考模式”在指令遵循基准（例如IFBench【61, Generalizing verifiable instruction following, 2025】）上能产生更高的准确率。由于后续的RL阶段会恢复在IF-RL期间引入的任何人类偏好对齐的衰退，我们可以完全专注于最大化指令遵循能力，而无需承担辅助奖励模型的计算开销。

IF-RL超参数。我们使用的批次大小为128，每个提示采样16个响应，温度为1.0，top-p为1.0。我们采用3e-6的学习率和AdamW优化器【36, Adam: A method for stochastic optimization, 2014】，并将熵损失系数和KL损失系数都设置为0。带有动态过滤的IF-RL大约需要180个步骤。完整的超参数集在附录B中提供。

4.3. 多领域RL

多领域RL的训练内容。在IF-RL之后，我们进行了一个额外的多领域RL阶段，涵盖三种能力：STEM领域的多项选择问答（MCQA）、智能体工具调用以及用于指令遵循的结构化输出。数据集来源于NVIDIA Nano-v3 RL训练混合数据【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】。数据混合比例约为55%的MCQA，30%的使用Workplace Assistant设置【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的智能体工具调用，以及15%的结构化输出。

分组训练的理由。我们将这些领域分组到一个单一的多领域RL阶段，主要有两个原因。首先，在混合领域上训练时，我们没有观察到评估基准的性能下降。相反，模型在MMLU-Pro、𝒯²-Bench和IF-Bench等基准上表现出持续的改进。其次，这些数据集的响应长度和验证时间相似，这最大限度地减少了因等待更长的生成或更慢的环境验证而导致的训练效率低下问题。

多领域RL超参数。在训练期间，我们使用的批次大小为128，每个提示采样16个响应，温度为1.0，top-p为1.0（见附录B）。我们采用3 × 10⁻⁶的学习率和AdamW优化器【36, Adam: A method for stochastic optimization, 2014】，并将熵损失系数和KL损失系数都设置为零。这个多领域RL阶段运行大约70个训练步骤。

4.4. 多领域在线策略蒸馏 (MOPD)

MOPD的动机。尽管精心设计的级联RL与任意顺序的普通序贯RL相比，能显著减少灾难性遗忘，但随着训练环境数量的增加，它并不能完全消除能力漂移。在实践中，我们观察到在整个训练过程中追踪的不同基准类别之间存在明显的波动，并且主导的权衡因阶段而异。例如，某些RLVR训练通常会降低模型熵并缩短推理轨迹，从而可能对数学推理性能产生负面影响，而面向RLHF的优化可能会部分牺牲指令遵循行为。这些观察促使我们在级联RL流程中增加一个用于重新平衡能力的额外训练阶段。

MOPD的优势。因此，我们采用多领域在线策略蒸馏（MOPD）【2, On-policy distillation of language models: Learning from self-generated mistakes, 2024; 22, Minillm: On-policy distillation of large language models, 2024; 43, On-policy distillation, 2025; 76, Mimo-v2-flash technical report, 2026; 79, Qwen3 technical report, 2025; 83, Glm-5: from vibe coding to agentic engineering, 2026】作为一个补充性的后训练阶段。在我们的设置中，MOPD特别有吸引力，原因有三。首先，教师检查点可以直接从级联RL流程中选择，通过为每个基准类别选择验证性能最强的检查点，这使得在不引入外部模型家族的情况下，很容易组建一个能力多样的教师池。其次，因为这些教师源于相同的SFT初始化，它们与学生共享相同的分词器和词汇表，减少了分布偏移并避免了额外的对齐问题。第三，MOPD提供了密集的词元级训练优势，与稀疏的结果奖励相比尤其有用，在图3(c)中我们展示了其相对于GRPO的训练效率优势。

MOPD目标函数。让$\pi_{\text{inf}}$表示用于在推理引擎中生成响应的学生策略，让$\pi_{\text{train}}$表示由训练引擎优化的学生策略。对于每个提示$q$，我们从$\pi_{\text{inf}}(\cdot | q)$采样一个响应$y = (y_1, . . . , y_T)$。然后我们为该训练样本选择一个领域教师$\pi_{\text{domain}_k}$，其中$\text{domain}_k$表示与所选教师相关的能力领域。记$c_t = (q, y_{<t})$为在步骤$t$的解码状态，我们使用反向KL散度定义词元级蒸馏优势：<br />
直观上，当领域教师为采样词元分配的概率高于当前训练策略时，该项为正，因此它作为一个密集的词元级蒸馏优势，在训练过程中会收敛到0。对数概率差异仅在学生采样的词元上计算，而不是在整个词汇表上。

重要性加权与代理目标。由于响应是在$\pi_{\text{inf}}$下采样但在$\pi_{\text{train}}$下优化，我们应用截断重要性加权来解决训练-推理不匹配问题：

其中sg[·]表示停止梯度。然后我们优化代理目标：

其中$\mathcal{T}(y)$是由词元掩码保留的有效响应词元集合。

超参数。除非另有说明，我们使用4的rollout大小和每个更新128个提示，得到512个响应的有效批次大小。在后续实验中，我们发现使用512个提示和1的rollout大小能产生稍微更稳定的优化，同时得到相似的最终结果。我们使用2 × 10⁻⁶的学习率，在前30个优化步骤中进行线性预热，从2 × 10⁻⁷开始。训练通常在40-50个优化步骤内收敛（图3(a)）。我们发现预热阶段对于稳定性很重要：训练开始时梯度范数显著较大，在预热阶段后迅速下降（图3(b)）。对于截断重要性加权，我们设置$\rho_{\text{low}} = 0.5$和$\rho_{\text{high}} = 2.0$。在主要实验中，我们使用三个领域教师，分别对应数学、RLHF和多领域。数学教师是初始的SFT检查点，由于精心整理的SFT数据集，它已经表现出强大的数学推理能力。RLHF教师是通过从初始SFT检查点进行RLHF优化的检查点。多领域教师是从之前的IF-RL + 多领域RL阶段后的检查点中选择的。我们相应地从RL训练数据池（RLHF、IF-RL和多领域）以及AceReason-Math【10, Acereason-nemotron: Advancing math and code reasoning through reinforcement learning, 2025】中采样数学提示。

图3：训练动态和下游评估。

训练效率优势。MOPD提供密集的词元级蒸馏优势，而GRPO依赖于稀疏的序列级结果奖励，该奖励在所有生成的词元间共享。这使得MOPD在实践中具有更高的样本效率和步骤效率。从相同的初始检查点开始，MOPD在更少的优化步骤中持续达到更强的性能。在AIME25上（图3(c)），在仅进行数学训练的情况下，GRPO在25步后从89.9提升到91.0，而MOPD在30步内达到92.0并恢复了教师级别的性能。在ArenaHard v2上也出现了类似的趋势（表3）。经过52步后，MOPD将Hard Prompt从71.5提升到85.5，Creative Writing从40.6提升到71.0。相比之下，RLHF训练需要160步才能在Hard Prompt上达到80.7，在Creative Writing上达到71.2。这些结果表明，在线策略蒸馏中的密集词元级优势导致了更快的训练收敛。

表3：在ArenaHard V2.0上，MOPD和RLHF在匹配的评估检查点上的性能比较。

4.5. 来自人类反馈的强化学习 (RLHF)

RLHF阶段的目标。在多领域在线策略蒸馏的基础上，我们的RLHF方法专注于人类偏好学习。这个过程进一步增强了创意写作以及编码和数学中不可验证问题的解决能力，这通过ArenaHard v2【37, From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline, 2024】来衡量，同时在不降低性能的情况下保持了其他领域的能力。

4.5.1. 数据集

数据集与生成式奖励模型。我们采用了NVIDIA Nano-v3【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的RLHF训练数据集，该数据集包括HelpSteer3【72, Helpsteer3-preference: Open human-annotated preference data across diverse tasks and languages, 2025】、arena-human-preference-140k数据集【11, Chatbot arena: An open platform for evaluating llms by human preference, 2024】的一个商业友好子集，以及一个合成的安全混合数据集【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】。遵循NVIDIA Nano-v3【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的方法，我们利用Qwen3-235B-A22B-Thinking-2507【79, Qwen3 technical report, 2025】作为我们的生成式奖励模型（GenRM），该模型通过HelpSteer3框架【73, Helpsteer3-preference: Open human-annotated preference data across diverse tasks and languages, 2025】进行训练。给定对话历史、用户请求和两个候选响应，GenRM首先推理每个响应的优缺点，然后产生各自的有用性分数和最终的比较排名。

4.5.2. 训练方法

RLHF训练策略。我们采用与NVIDIA Nano-v3【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】相似的训练方法，使用GenRM进行RLHF。为确保训练信号的高质量，我们对每个提示的所有rollout对进行成对比较。我们以与NVIDIA Nano-v3 RLHF训练相同的方式聚合奖励分数，并应用相同的长度归一化奖励调整和质量门控的简洁性奖励（quality-gated conciseness bonus）【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】。这些机制在不牺牲质量的情况下鼓励更短的响应，有效缓解了推理词元使用的快速增长。

训练模式的选择。与Nemotron Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】不同，我们仅在思考模式下训练RLHF。虽然同时整合思考和非思考模式可以改善训练收敛并带来评估基准上的轻微增益，但我们观察到指令遵循性能有显著下降。这种下降幅度之大，以至于在早期RLVR阶段获得的增益无法完全恢复。

4.5.3. 超参数

RLHF超参数。我们使用的批次大小为128，每个提示生成16个rollout，温度为1.0，top-p值为1.0。在RLHF期间，我们使用的最大响应长度为16K，不应用超长过滤。我们采用3e-6的学习率和AdamW优化器【36, Adam: A method for stochastic optimization, 2014】。我们将熵损失系数设置为0，KL损失系数设置为0.03，以保持模型在其他领域的能力。训练大约需要30个步骤。

4.6. 长上下文RL

长上下文RL阶段的目标与设置。在RLHF之后，我们进行了一个长上下文RL阶段，以进一步增强模型的长上下文理解和推理能力。我们使用了NVIDIA Nano-v3 RL数据混合【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】，但将此阶段限制为仅使用长上下文数据集。在我们的实验中，在长上下文RL期间整合其他领域会对不相关基准的性能产生负面影响，这促使我们采用这种特定领域的训练设置。

环境与评估。我们采用了Nemo-Gym RL环境【50, Nemo gym: An open source library for scaling reinforcement learning environments for llm, 2025】，并使用Qwen3-235B-A22B-Instruct-2507作为LLM评判者来评估模型在问答任务中的rollouts。在训练期间，输入序列被限制在32K词元，最大序列长度设置为49K词元，不应用超长过滤。

超参数。我们使用128的批次大小进行训练，每个提示生成16个rollouts，温度为1.0，top-p为1.0。使用AdamW【36, Adam: A method for stochastic optimization, 2014】进行优化，学习率为3 × 10⁻⁶，而熵和KL损失系数均设置为零。训练大约运行30个步骤，因为我们观察到超过该点后生成的词元会迅速增加。

4.7. 代码RL

4.7.1. 数据整理

代码RL训练集的构建。我们从Nemotron-Cascade编码语料库【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】构建我们的代码RL训练集，该语料库包含来自现代竞赛编程平台（如AtCoder、Codeforces和AIZU）的编码提示，并带有用于奖励验证的鲁棒测试用例。为了提高训练效率和加强深度推理，我们积极过滤掉GPT-OSS-120B在8次rollouts中全部正确解决的提示，最终得到一个仅包含3.5K样本的紧凑集合。我们发现，高难度提示与强大的测试用例相结合，对于进一步提升模型性能至关重要。

4.7.2. 训练细节

代码RL训练配置。我们使用128的批次大小和3 × 10⁻⁶的学习率，以及AdamW优化器进行代码RL。与Nemotron-Cascade相比，我们将RL期间的最大响应长度增加到118K词元，并将每个样本的rollouts数量增加到16，使策略能够在需要长推理轨迹的极难问题上更好地捕捉稀疏的奖励信号。我们采用严格的二元奖励函数以避免潜在的奖励操纵（reward hacking），并保持整个训练过程完全在线策略以保证稳定性。为了支持由此产生的每RL步骤128 × 16 = 2,048次代码执行的验证吞吐量，我们部署了一个异步奖励验证服务器，该服务器在384个CPU核心上用427.2秒完成每个批次。

4.8. 软件工程强化学习 (SWE RL)

4.8.1. 无智能体RL (Agentless RL)

训练细节与超参数。为了增强模型的代码修复能力，我们采用了与Wang等人【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】相同的数据源进行无智能体代码修复强化学习（RL）训练。由于大多数实例不提供可执行的Docker环境，我们使用GPT-OSS-120B作为奖励模型来评估我们模型生成的代码修复质量。遵循Wang等人【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的方法，我们为每个实例使用黄金定位（golden localization）和前5个检索到的定位来构建提示，并过滤掉相对简单的样本。我们以2,048的批次大小（128个提示，每个提示16个rollouts）进行无智能体SWE RL，最大序列长度为98,304，学习率为3 × 10⁻⁶，使用AdamW优化器。我们以1.0的温度和1.0的top-p采样响应。在训练期间，对于没有任何rollout获得大于0.5奖励的提示，我们掩蔽其损失。我们观察到这些困难的提示会降低无智能体SWE RL训练的稳定性和有效性。我们的无智能体RL训练通常在40-50步内收敛。

无智能体RL训练能否帮助智能体任务？ 表4显示，无智能体RL训练不仅提高了模型在无智能体框架内的性能，还增强了模型在智能体设置中解决SWE任务的能力。请注意，对于Agentless Mini评估，我们使用了一个代码嵌入模型NV-Embed-Code【66, Nemotron-cortexa: Enhancing llm agents for software engineering tasks via improved localization and solution diversity, 2025】来检索5个候选文件，其代码内容与问题上下文在语义上相似。这一结果表明，仅提高模型的代码修复能力就可以在不同脚手架之间泛化，这与Yang等人【81, Kimi-dev: Agentless training as skill prior for SWE-agents, 2026】的观察结果一致。

表4：无智能体RL在SWE-bench Verified上的有效性。

4.8.2. 基于执行的智能体SWE脚手架RL

智能体训练的挑战与方法。现代软件工程智能体依赖于协调代码库交互、工具调用、代码编辑和测试执行的脚手架框架。训练智能体在这些环境中有效操作，不仅需要优化单个模型输出，还需要优化整个问题解决轨迹。为了解决这个问题，我们直接在智能体SWE脚手架内应用了来自可验证奖励的强化学习（RLVR），从而实现了对整个智能体工作流程的端到端优化。我们的训练环境集成了已建立的OpenHands框架【70, Openhands: An open platform for AI software developers as generalist agents, 2025】，该框架提供了结构化的工具使用、代码库交互和迭代式补丁生成。

基于执行的RL环境。我们使用基于执行的强化学习，在完全可执行的软件环境中训练智能体，其中每个回合对应于解决一个来自SWE-bench等基准的软件问题实例。智能体在一个工具化的代码库中操作，该代码库暴露了用于文件检查、搜索、代码编辑和测试执行的工具。智能体生成的候选补丁在环境中执行，环境会返回来自编译结果和单元测试结果的可验证信号，从而实现无需人工标注的自动奖励计算。通过OpenHands脚手架框架，智能体迭代地定位缺陷、提出补丁，并通过测试执行来验证它们。环境反馈——包括编译错误、失败的测试或成功的测试通过——提供了直接反映功能正确性的确定性奖励。

训练数据与配置。具体来说，我们使用1024的批次大小进行基于执行的智能体强化学习，对应于16个提示，每个提示64个rollouts。最大上下文长度设置为256k词元，智能体被允许最多进行200个交互回合，这在智能体编码问题解决期间提供了更大的推理词元预算。训练数据来源于SWE-Gym【57, Training software engineering agents and verifiers with swe-gym, 2025】和R2E-Subset【33, R2e-gym: Procedural environments and hybrid verifiers for scaling open-weights swe agents, 2025】。我们使用我们的中间模型为每个实例生成16个rollouts，并使用验证流程进行评估。对于所有rollouts都通过验证（100%准确率）的实例，表明问题过于简单，我们将它们从数据集中移除。对于没有任何rollout通过验证（0%准确率）的实例，表明问题极其困难，我们随机丢弃90%的此类案例，以减少它们在训练数据中的比例。

A7 补充细节

5. 国际数学奥林匹克 (IMO)

5.1. IMO 2025

IMO 2025 竞赛表现。在表2中，我们使用一个自改进的测试时扩展框架【65, Deepseekmath-v2: Towards self-verifiable mathematical reasoning, 2025】评估了Nemotron-Cascade-2-30B-A3B在IMO 2025问题集上的表现，该框架中模型会迭代地生成候选解决方案、验证它们，并根据自身反馈进行改进。值得注意的是，尽管其规模相对较小（30B-A3B），该模型成功解决了前五个问题。我们在附录E中提供了完整的模型解决方案以及人类专家的评论。这些结果特别令人鼓舞，因为它们表明，当与有效的推理时扩展相结合时，强大的奥林匹克水平的数学推理能力可以从一个相对紧凑的模型中涌现。

待改进之处。仍有几个有希望的改进方向：专家评审指出，一些证明比必要的要长，包含了多余的中间步骤或定义，偶尔会暴露中间推理的痕迹，有时还包含轻微的排版问题。对于问题2，模型采用了解析解策略，类似于OpenAI的方法【55, Introducing GPT-5, 2025】，而不是像Gemini Deep Think (IMO Gold)【19, Gemini Team. Advanced version of gemini with deep think officially achieves gold-medal standard at the international mathematical olympiad. 2025.】那样采用更具几何性的方法。

5.2. IMO-ProofBench

IMO-ProofBench 性能。如表5所示，Nemotron-Cascade-2-30B-A3B在IMO-ProofBench【45, Towards robust mathematical reasoning, 2025】上通过“生成-验证-改进”的测试时扩展取得了72.9分，尽管其激活参数比DeepSeek-Math-V2-671B-A37B【16, Towards autonomous mathematics research, 2026】少10倍，但差距在8分以内。它在基础（Basic）部分达到了90+分，并超过了QED-Nano-4B（54.0分）【42, Qed-nano: Teaching a tiny model to prove hard theorems, 2026】18分，尽管后者由于评判模型不同而不能直接比较。在我们的LLM评判设置下重新评估提供的DeepSeek-Math-V2证明，得到的分数与报告的人类评分相差4分以内，这表明我们的协议没有显著高估性能（更多细节见附录A.1.2）。在图4中，我们展示了增加测试时计算量可以提高Nemotron-Cascade-2-30B-A3B在IMO-ProofBench（高级部分）上的表现，将分数从第1轮的40.7分提高到第5轮的53.4分，并缩小了与在相同评分器下的DeepSeek-Math-V2的差距。

表5：IMO-ProofBench【45, Luong et al., 2025】报告了基础（30个问题）和高级（30个问题）子任务以及总体（60个问题）的分数。专家评估结果来自IMO-ProofBench排行榜（2026年3月9日访问）。† 使用DeepSeek-V3.2-Speciale作为评判模型，并采用LLM ProofAutoGrader提示【45, Luong et al., 2025】。

图4：由LLM ProofAutoGrader（DeepSeek-V3.2-Speciale）评分的IMO-ProofBench（高级）分数。

6. 竞赛编程

6.1. IOI 2025 和 ICPC 世界总决赛 2025

IOI 2025 策略与表现。对于IOI 2025，我们改编了Nemotron-Cascade【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】的IOI测试时扩展（Test-Time Scaling）流程，这可以看作是一个多轮“生成-选择-提交”的框架，利用了模型在IOI官方规则下的推理能力。每个子任务最多分配50轮。在每一轮中，我们提示模型生成40个候选解决方案，并结合（1）前几轮的提交历史和官方评测结果，以及（2）同一主任务中高分或完全解决的子任务的共享见解。完整的对话模板在附录C.1中提供。使用这种方法，我们在问题3和问题4上取得了满分，在最多40 × 50 = 2000次模型生成内获得了439.28分的金牌成绩，而507.66分在5000次生成内是可达到的。值得注意的是，在需要设计和优化启发式算法的问题2上，我们的流程仅用5轮（最多200次模型生成）就达到了超过86分，展示了自改进和跨子任务见解的有效性。

ICPC 世界总决赛 2025 表现。对于ICPC世界总决赛2025，我们为每个问题生成最多1000个解决方案，并在初步筛选后提交进行官方评估。我们成功解决了12个问题中的10个，获得了第4名的金牌排位，其中8个问题（除了问题A和I）仅在100次提交内就解决了。

6.2. 竞赛编程基准测试结果

多基准测试结果。我们评估了Nemotron-Cascade-2-30B-A3B模型在各种竞赛编程基准上的表现，包括LiveCodeBench v6【32, Livecodebench: Holistic and contamination free evaluation of large language models for code, 2024】和LiveCodeBench Pro【86, Livecodebench pro: How do olympiad medalists judge llms in competitive programming?, 2025】的25Q1和25Q2分割。我们还通过模拟参与从2501年到2507年举行的40场Div.1/Div.2 Codeforces比赛来估计Codeforces ELO分数。我们报告了在128K词元思考预算、采样温度1.0和top_p 0.95下的avg@8结果。对于工具集成推理（TIR）结果，我们允许模型调用一个有状态的Python执行器最多100次。对于基线模型评估，我们遵循其推荐的推理配置，确保思考预算至少为128K词元，最多为256K词元。更多评估细节可在附录A和附录D中找到。

性能对比。如表6所示，Nemotron-Cascade-2-30B-A3B取得了出色的Pass@1准确率和ELO评分，即使与总参数超过100B的前沿开源模型（如Nemotron-3-Super-120B-A12B、GPT-OSS-120B和Qwen-3.5-122B-A10B）相比也是如此。通过工具集成推理（TIR），我们模型的性能可以进一步提升，尤其是在难题上，并能与总参数超过300B的最强开源模型（如Kimi-K2.5-1T-Thinking、Qwen-3.5-397B-A17B和DeepSeek-v3.2-Speciale）相媲美，这些模型要么缺乏用于深度推理的TIR支持，要么在Python TIR下表现不佳。值得注意的是，Nemotron-Cascade-2-30B-A3B在8次尝试内，在LiveCodeBench Pro困难分割上取得了超过0%的成绩，展示了在即使对人类来说也极其困难的问题上的强大推理能力。

表6：在综合基准上的竞赛编程结果，与一个显著扩展的专有和开源基线模型集进行评估。

A4 实验环境

数据集

SFT数据:
- 数学: Nemotron-Cascade, Nemotron-Math-v2, Nemotron3-Nano, Nemotron-Math-Proofs-v1。共440万样本（180万工具调用，260万非工具）+ 81.6万证明样本。
- 代码推理: OpenCode-Stage2, OpenCodeReasoning, HardTests。共420万推理轨迹（Python, C++14, Python工具调用）+ 110万科学编码样本。
- 科学: Nemotron-Cascade, Nemotron-3-Nano。共270万样本。
- 长上下文: Nemotron-3-Nano, ChatQA-2。共23.4万样本。
- 通用对话: Nemotron-Cascade 1, Nemotron-3-Nano (LMSYS, WildChat)。共1057.2万样本。
- 指令遵循: Nemotron-Cascade 1, Nemotron-3-Nano。共79.1万样本。
- 安全: Nemotron-3-Nano (源自Nemotron Content Safety v2, Gretel Safety Alignment v1, Harmful Tasks, Red-Team-2K)。4000个样本。
- 对话/软件/终端智能体: Nemotron3-Nano, Nemotron-Cascade 1, SWE-Gym, SWE-rebench, R2E-Subset, Terminal-Task-Gen。共计超过220万个样本。
RL数据:
- IF-RL: NVIDIA Nano-v3指令遵循数据。
- 多领域RL: NVIDIA Nano-v3 RL训练混合数据（MCQA, Agentic tool calling, Structured output）。
- MOPD: RLHF, IF-RL, 多领域RL数据池, AceReason-Math。
- RLHF: NVIDIA Nano-v3 RLHF数据（HelpSteer3, arena-human-preference子集, 合成安全数据）。
- 长上下文RL: NVIDIA Nano-v3 RL数据混合（仅长上下文部分）。
- 代码RL: Nemotron-Cascade编码语料库，过滤后剩3.5K高难度样本。
- SWE RL: Wang et al. (2025)数据, SWE-Gym, R2E-Subset。

模型架构

模型: Nemotron-Cascade-2-30B-A3B。
类型: 混合专家模型 (MoE)。
总参数: 300亿 (30B)。
激活参数: 30亿 (3B)。
基础模型: Nemotron-3-Nano-30B-A3B-Base。
SFT阶段: 序列长度最高256K，训练约1.5个epoch。
RL阶段: 详见各RL子章节超参数。

硬件配置

GPU: 未明确指定型号，但提及训练由NVIDIA完成，可推断为NVIDIA的高端GPU集群。
CPU: 代码RL阶段提到使用384个CPU核心进行异步奖励验证。
网络: 未明确指定。

软件配置

实现: 使用Nemo-RL库【51, NeMo RL: A Scalable and Efficient Post-Training Library, 2025】进行RL训练。
智能体框架: OpenHands【70, Openhands: An open platform for AI software developers as generalist agents, 2025】, Terminus 2【49, Terminal-bench: Benchmarking agents on hard, realistic tasks in command line interfaces, 2026】。
评估框架: NeMo-Skills【52, NeMo-Skills, 2025】, OpenHands【70, Openhands: An open platform for AI software developers as generalist agents, 2025】。
教师/评判模型: DeepSeek-V3.2, DeepSeek-V3.2-Speciale, GPT-OSS-120B, Qwen3系列, GPT-4.1等。
操作系统: 训练环境为隔离的Docker环境。

A5 结论

本文成功推出了Nemotron-Cascade 2，一个参数量为30B（3B激活）的开源MoE模型。通过对级联强化学习（Cascade RL）框架的显著扩展和创新，该模型在保持紧凑规模的同时，实现了顶级的推理能力和强大的智能体功能。

核心贡献与成果：
1. 方法论创新：本文的关键技术进步在于将级联RL扩展到更广泛的推理和智能体领域，并引入了多领域在线策略蒸馏（MOPD）。MOPD作为一种稳定机制，有效解决了在多阶段训练中可能出现的性能衰退问题，确保了模型能力的持续提升和平衡。
2. 卓越性能：Nemotron-Cascade 2在数学和编程等高难度推理任务上取得了突破性成果，成为继DeepSeekV3.2-Speciale之后第二个在IMO、IOI和ICPC三大顶级竞赛中达到金牌水平的开源模型。这一成就以远小于同类前沿模型的参数规模（少20倍）达成，展现了极高的“智能密度”。
3. 训练流程的有效性：与同样基于Nemotron-3-Nano-Base模型后训练的Nemotron-3-Nano相比，Nemotron-Cascade 2在几乎所有基准测试中都表现更优，有力地证明了“级联RL + MOPD”训练流程的卓越效果。

未来展望：
尽管取得了显著成功，本文也指出了未来的改进方向。模型在知识密集型和某些智能体基准上仍有提升空间，这表明未来的工作需要加强知识密集型预训练和进一步发展智能体RL，以构建能力更全面的模型。

社区贡献：
通过全面开源模型权重、训练数据和方法论细节，本研究为社区复现、分析和进一步发展强大的语言模型提供了宝贵的资源，推动了该领域的开放研究。

A6 附录

A. 基准和评估设置

A.1. 数学

A.1.1. 非证明数学

非证明类数学推理任务。我们包含以下任务：
* AIME 2025【47, American Invitational Mathematics Examination - AIME 2025, 2025】：包含30道来自2025年美国数学邀请赛的问题。
* AIME 2026【48, American Invitational Mathematics Examination - AIME 2026, 2026】：包含30道来自2026年美国数学邀请赛的问题。
* HMMT Feb 2025【28, Harvard-mit mathematics tournament february 2025, 2025】：包含30道来自2025年2月哈佛-麻省理工数学锦标赛的问题。
* IMO-AnswerBench【45, Towards robust mathematical reasoning, 2025】：包含400道带有可验证答案的问题，这些问题从过去的奥林匹克竞赛中精心挑选并由专家修改以避免记忆。

评估设置。对于在AIME 2025、AIME 2026和HMMT 2025 Feb上评估的Nemotron-Cascade-2-30B-A3，我们将思考预算（最大响应长度）设置为131K词元，采样温度为1.0，top-p值为1.0。对于带工具的设置，我们通过附加一个系统提示后缀来启用工具使用，允许模型调用一个有状态的Python执行器最多100次，最大响应长度为131K词元。对于IMO-AnswerBench，我们设置为256K词元，因为我们发现问题难度显著更高。我们使用并报告了使用GPT-OSS-120B【3, gpt-oss-120b & gpt-oss-20b model card, 2025】作为评判模型和AnswerAutoGrader提示【45, Towards robust mathematical reasoning, 2025】在IMO-AnswerBench上的LLM评判分数，因为其简短答案对于基于规则的验证器来说计算复杂。遵循Liu等人【38, Deepseek-V3 technical report, 2024; 41, Acereason-nemotron 1.1: Advancing math and code reasoning through sft and rl synergy, 2026】的方法，我们报告AIME/HMMT的avg@64和IMO-AnswerBench的avg@16。

基线模型设置。对于基线模型，我们使用其报告中的官方数据，如果官方数据不可用，则使用推荐设置进行评估。

A.1.2. 数学证明

数学证明任务。我们包含以下任务：
* IMO 2025【31, International Mathematical Olympiad, 2025】：包含6道来自IMO 2025的问题。
* IMO-Proof Bench【45, Towards robust mathematical reasoning, 2025】：旨在评估AI模型构建全面有效数学论证的能力。该基准包含60个基于证明的问题，旨在模仿IMO中发现的问题类型。

评估设置。对于Nemotron-Cascade-2-30B-A3，我们遵循DeepSeek-Math-V2的“生成-验证-改进”流程进行测试时扩展，使用相同的指令。我们在NeMo-Skills【52, NeMo-Skills, 2025】中实现此流程。我们使用DeepSeek-Math-V2的默认超参数：128次证明生成，每次证明64次验证，选择前32个证明进行改进，以及每个证明配对8个验证分析，优先选择评分最低的分析。然后我们生成4个精炼的证明，并持续最多8轮，或直到平均证明分数达到0.99999的阈值。我们将最大生成长度设置为256K词元，温度为1.0，top-p为0.95。

计算预算与评分规则。对于IMO-Proof Bench基础部分和高级部分的11个问题（即问题1, 4, 7, 13, 14, 17, 19, 22, 25, 26, 28），我们将计算预算减少到32次证明生成，16次验证，前8个证明，以及2轮，以节省计算资源。对于IMO-ProofBench评估，我们使用DeepSeek-V3.2-Speciale以确保结果后续可复现，并使用ProofAutoGrader提示【45, Towards robust mathematical reasoning, 2025】运行64次评分尝试。我们发现报告平均分会使DeepSeek-Math-V2在高级部分得到73.8分，这比人类评分的61.9分要宽松得多。因此，我们采用一个基于分析的简单聚合规则：如果任何评判者给出的分数为0，则最终分数为0；否则，返回平均分。在此规则下，DeepSeek-Math-V2获得57.7分，这更接近人类评分，并将差异从11.9分减少到4.2分。

A.2. 代码推理

代码生成任务。我们包含以下任务：
* LiveCodeBench【32, Livecodebench: Holistic and contamination free evaluation of large language models for code, 2024】：包含来自AtCoder、LeetCode平台的各种带单元测试的算法编码问题。我们在LiveCodeBench v6（2024/08-2025/05，共454个问题）上评估模型的竞赛编码能力。我们报告在思考模式下，8次生成的平均pass@1准确率（avg@8）。
* LiveCodeBench Pro【86, Livecodebench pro: How do olympiad medalists judge llms in competitive programming?, 2025】：包含每日更新的、来自顶级编码竞赛的、带有强单元测试的挑战性竞赛编码问题。我们在两个最近发布的子集上报告Easy/Med难度分割的pass@1准确率，思考模式下8次生成的平均值（avg@8）：2025Q1（2025/01-2025/04，共166个问题）和2025Q2（2025/04-2025/07，共167个问题）。
* IOI和ICPC世界总决赛：代表了最具挑战性和声望的年度算法编码竞赛，汇集了世界顶级的参赛者。IOI向约前8.3%（十二分之一）的参与者颁发金牌，而ICPC世界总决赛（ICPCWF）仅将金牌限制在全球前4支队伍。
* SciCode【68, Scicode: A research coding benchmark curated by scientists, 2024】：作为一个具有挑战性的基准，用于评估模型解决STEM领域现实科学研究任务的能力。它包含来自80个主任务的338个子问题。

评估设置。对于在LiveCodeBench v6和LiveCodeBench Pro上评估的Nemotron-Cascade-2-30B-A3B，我们使用128K词元的思考预算，采样温度为1.0，top-p为0.95。对于带工具的设置，我们通过附加一个系统提示后缀来启用工具使用，允许模型调用一个有状态的Python执行器最多100次，最大响应长度为131K词元。我们使用基线模型的推荐推理配置进行评估，确保思考预算至少为128K词元。

A.3. 知识与STEM

知识推理任务。我们包含以下任务：
* MMLU-Redux【17, Are we done with mmlu?, 2024】：是一个基准，包含从30个MMLU科目【27, Measuring massive multitask language understanding, 2020】中手动重新标注的3000个问题的子集，消除了原始的标注错误。我们在思考模式下评估模型，由于测试集较大，我们报告基于每个问题单次生成的精确匹配（EM）准确率。
* MMLU-Pro【71, Mmlu-pro: A more robust and challenging multi-task language understanding benchmark, 2024】：是原始MMLU基准的增强版，通过扩展到超过12000个研究生水平的问题并将答案选项从四个增加到十个来缓解模型饱和。我们报告在思考模式下，每个问题单次生成的EM准确率。
* GPQA-Diamond【63, Gpqa: A graduate-level google-proof q&a benchmark, 2024】：是评估LLM科学推理能力的基准。它包含198个最高质量的GPQA问题，涵盖研究生水平的物理、生物和化学。我们报告在思考模式下，每个问题8次生成的平均pass@1准确率（avg@8）以减少方差。
* HLE (Humanity’s Last Exam)【59, Humanity’s last exam, 2025】：是一个前沿的学术推理基准，涵盖广泛的专家级科目。我们在其纯文本分割上进行评估，该分割包含2158个示例。

评估设置。对于在MMLU-Redux、MMLU-Pro、GPQA-Diamond和HLE上以思考模式评估的Nemotron-Cascade-2-30B-A3B，我们使用1.0的温度，0.95的top-p值，以及128K词元的思考预算（最大响应长度）。对于HLE，我们使用默认的系统提示，并在每个问题后附加“Please place your final answer inside \boxed{}”，并使用GPT-OSS-120B作为LLM评判者，通过附录C.2中的提示进行答案提取和正确性验证。与官方HLE响应格式（要求解释、答案和置信度分数）相比，这种盒装答案提示将准确率提高了6-7个百分点，主要是在数学子集上，因为它更好地与我们数学SFT数据中使用的答案格式对齐。

A.4. 对齐与指令遵循

对齐任务。我们包含以下任务：
* ArenaHard 2.0【37, From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline, 2024】：是一个人类偏好对齐基准，包含750个多样化且严格的真实用户提示。该数据集专门结构化，其中500个提示针对开放式软件工程问题和复杂数学问题，其余250个专注于创意写作。它使用自动化的LLM-as-Judge方法来估计相对于基线模型的人类偏好，实现了完全自动化、低成本和快速的评估，无需人工干预。在我们的实验中，我们报告不带风格控制的结果，以便与其他模型的官方报告数据进行直接比较。我们在思考模式下评估模型，并使用GPT-4.1作为自动评判者。
* IFBench【61, Generalizing verifiable instruction following, 2025】：通过引入58个新的、多样化且具有挑战性的可验证域外指令约束，扩展了IFEval【87, Instruction-following evaluation for large language models, 2023】。它提供了一个单独的约束列表，以确保训练和测试约束之间没有重叠，从而能够评估LLM的泛化能力。测试集包含294个提示。我们报告在思考模式下，8次生成的平均pass@1准确率（avg@8）。
* Scale AI Multi-Challenge【12, Multichallenge: A realistic multi-turn conversation evaluation benchmark challenging to frontier llms, 2025】：是一个旨在评估LLM在与人类用户的多轮对话中的基准。它包括四个挑战类别：指令保留、推理记忆、可靠的版本化编辑和自洽性。这些任务要求模型同时执行准确的指令遵循、有效的上下文管理和上下文内推理。测试集总共包含273个对话。我们报告在思考模式下，10次生成的平均pass@1准确率（avg@10）。

评估设置。对于在IFEval上以非思考模式、在IFBench和ArenaHard上以思考模式评估的Nemotron-Cascade模型，我们使用0.6的温度，0.95的top-p值，以及32K词元的最大响应长度。对于基线模型，我们尽可能使用官方报告的结果；如果缺少此类结果，我们使用其推荐的推理配置或与我们相同的设置进行评估。

A.5. 长上下文与上下文学习

长上下文和上下文学习任务。我们包含以下任务：
* AA-LCR (Artificial Analysis Long Context Reasoning)【67, Artificial analysis long context reasoning benchmark(lcr), 2025】：包含100个具有挑战性的基于文本的问题，需要对多个长的、真实世界的文档进行推理，包括公司报告、政府咨询、法律文件和学术论文。每个样本包含一个平均约10万词元的文档集。问题的设计使得答案不能直接从文档中检索，而需要跨多个信息源进行推理。我们报告在思考模式下，16次生成的平均pass@1准确率（avg@16）。
* LongBench v2【6, Longbench v2: Towards deeper understanding and reasoning on realistic long-context multitasks, 2025】：包含503个具有挑战性的多项选择题，上下文长度从8k到2M词不等。该基准涵盖六个任务类别：单文档QA、多文档QA、长上下文学习、长对话历史理解、代码库理解和长结构化数据理解。问题设计得很难；即使是配备了文档搜索工具的人类专家也可能需要大量时间才能正确回答。我们在思考模式下评估模型，并报告4次生成的平均pass@1准确率（avg@4）。
* NIAH@1M (Ruler Subset)：指来自RULER基准【29, Ruler: What’s the real context size of your long-context language models?, 2024】的海底捞针（needle-in-a-haystack, NIAH）任务。NIAH测试【35, Needle in a haystack - pressure testing llms, 2023】评估LLM在长干扰文本（“草堆”）中检索特定信息（“针”）的长上下文能力。RULER基准定义了此任务的四个变体：单针NIAH、多键NIAH、多值NIAH和多查询NIAH。遵循Blakeman等人【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的方法，我们使用1M词元的上下文设置评估每个类别的100个实例。模型在非推理模式下进行评估，我们报告单次生成的pass@1准确率（avg@1）。
* CL-Bench【14, Cl-bench: A benchmark for context learning, 2026】：评估LLM从提供的上下文中学习并应用所获知识解决任务的能力，这个过程称为上下文学习。该基准包含1899个测试样本，跨越500个复杂上下文和31607个验证准则，全部由经验丰富的领域专家开发。完成这些任务所需的知识大部分超出了现有模型在预训练期间通常学习的范围，要求模型直接从提供的上下文中学习。模型在思考模式下进行评估，我们报告单次生成的pass@1准确率（avg@1）。

A.6. 智能体任务

智能体任务。我们包含以下任务：
* BFCL v4 (Berkeley Function Calling Leaderboard)【58, The Berkeley Function Calling Leaderboard (BFCL): From Tool Use to Agentic Evaluation of Large Language Models, 2025】：为LLM提供了一个全面的智能体评估框架，涵盖了跨多种编程语言的网页搜索、内存读写和函数调用等任务。我们遵循官方的BFCL V4评估协议，并报告跨越智能体、多轮、实时和非实时类别的组合分数。模型在思考模式下进行评估，我们报告单次生成的pass@1准确率（avg@1）。
* SWE-bench Verified【54, Introducing SWE-bench Verified, 2024】：是来自SWE-bench【34, Swe-bench: Can language models resolve real-world github issues?, 2023】原始测试集的一个子集，包含500个由人类标注员验证为无问题的样本。我们在非思考模式下评估模型，并报告4次生成的平均pass@1准确率（avg@4）。
* 𝒯²-Bench【7, ??2-bench: Evaluating conversational agents in a dual-control environment, 2025】：在具有明确策略、工具使用和共享世界状态更新的环境中评估多轮客服智能体。我们在三个官方子集上进行评估：航空（50个示例）、零售（114个示例）和电信（114个示例）。为将标准误差保持在1.5以内，我们报告航空的avg@16以及零售和电信的avg@8。
* Terminal Bench 2.0【49, Terminal-bench: Benchmarking agents on hard, realistic tasks in command line interfaces, 2026】：用于评估在基于终端的环境中的智能体，它包含89个人类验证的任务，跨越科学计算、机器学习和系统管理等专业领域。该基准超越了简单的代码生成，专注于端到端的工作流程，要求智能体展示在整体操作（如模型训练、系统配置和软件调试）方面的熟练程度，而不仅仅是生成孤立的函数。我们使用默认的Terminus-2脚手架评估模型。我们报告avg@5的任务成功率。

SWE-bench Verified评估细节。我们使用OpenHands脚手架【70, Openhands: An open platform for AI software developers as generalist agents, 2025】作为智能体编码评估框架。我们对智能体轨迹采用完全交互保留策略，保留跨回合的工具调用、观察和模型输出的完整历史。这包括之前的文件视图、搜索结果、执行的命令和中间补丁，使模型能够保持状态并在长周期的调试过程中有效推理。我们将最大上下文长度设置为256K词元，并允许最多200个回合，这与我们基于执行的智能体SWE-RL训练配置一致。值得注意的是，该评估设置与我们的训练环境高度相似，因为两者都依赖于在相同工具增强的脚手架内的执行反馈和多轮交互。这种一致性减少了训练-测试不匹配，并使模型能更有效地将学习到的行为（如迭代调试、假设改进和工具驱动的推理）迁移到评估设置中。

𝒯²-Bench评估细节。我们对𝒯²-Bench评估采用“最新回合思考保留”策略来管理多轮交互中的推理轨迹：我们保留最近一次用户回合后的模型推理内容，同时丢弃早期回合的推理内容。官方的𝒯²-Bench评估代码遵循“无思考传递”策略，即移除所有先前的推理内容；在我们的实验中，这种评估设置相对于“最新回合思考保留”策略，分数会持续降低3-5分。我们将此差距归因于训练-测试不匹配，因为我们用于𝒯²-Bench风格交互的SFT数据是使用相同的“最新回合思考保留”策略构建的，这也是Nemotron-3-Nano-v3和DeepSeek-V3.2中使用的思考状态管理策略。对于电信子集，我们还修改了系统提示，通过重复三次指令“确保你引导用户完成步骤，不要自己执行用户侧的操作”来强调双重控制设置。我们还测试了“完全思考保留”策略，该策略保留所有先前回合的推理内容，更接近RL训练，但发现其准确率与“最新回合思考保留”相似，同时会产生显著更长的上下文。因此，我们使用“最新回合思考保留”策略报告最终的𝒯²-Bench结果。

A.7. 多语言

多语言任务。我们包含以下任务：
* MMLU-ProX【78, Mmlu-prox: A multilingual benchmark for advanced large language model evaluation, 2025】：将具有挑战性的MMLU-Pro基准扩展到29种语言。遵循Blakeman等人【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的方法，我们选择了六种语言进行评估：英语（en）、德语（de）、西班牙语（es）、法语（fr）、意大利语（it）和日语（ja）。模型在思考模式下进行评估，我们报告单次生成的pass@1准确率（avg@1）。
* WMT24++【13, Wmt24++: Expanding the language coverage of wmt24 to 55 languages & dialects, 2025】：将WMT24机器翻译基准扩展到55种语言。遵循Blakeman等人【8, Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025】的方法，我们在五个翻译对上进行评估：英语到德语（en → de）、英语到西班牙语（en → es）、英语到法语（en → fr）、英语到意大利语（en → it）和英语到日语（en → ja）。我们使用XCOMET-XXL【23, xcomet: Transparent machine translation evaluation through fine-grained error detection, 2024】作为评估指标来评估翻译质量。我们的模型在思考模式下进行评估，我们报告单次生成的pass@1准确率（avg@1）。

B. 训练超参数

我们在表7、9、10中列出了Nemotron-Cascade-2-30B-A3B在所有阶段的训练超参数。

表7：Nemotron-Cascade-2-30B-A3B在SFT阶段的训练超参数。

表8：Nemotron-Cascade-2-30B-A3B在级联RL（IF-RL, 多领域RL, MOPD）中的训练超参数。

表9：Nemotron-Cascade-2-30B-A3B在级联RL（RLHF, 长上下文RL, 代码RL）中的训练超参数。

表10：Nemotron-Cascade-2-30B-A3B模型在基于执行的智能体SWE RL中的训练超参数。

C. 提示模板

C.1. IOI 2025 测试时扩展的提示模板

Write Python code to solve the problem. Please place the solution code in the following format: “‘python
# Your solution code here
“‘
{problem_statement}
Below you are provided the accepted correct solutions but with different input constraints. You may use them as a reference for your insights.
=======================
## Different Constraints (for reference only):
{subtask_constraints}
### Accepted Code:
[CODE]
=======================
## Different Constraints (for reference only):
===== =====
From here, you are also given your submission history containing **incorrect** code and their corresponding official judgement verdicts as reference – Official judgement verdicts and problem statement/- conditions are 100% reliable. You should make improvements from them if they could help:
=======================
### Incorrect Code
[CODE]
Judgement Verdict: [VERDICT], Score: [SCORE]
=======================
### Incorrect Code
…

中文翻译:

编写Python代码解决问题。请将解决方案代码放在以下格式中： “‘python
# 你的解决方案代码在此
“‘
{problem_statement}
下面提供了已接受的正确解决方案，但输入约束不同。你可以将它们作为见解的参考。
=======================
## 不同约束（仅供参考）：
{subtask_constraints}
### 已接受的代码：
[CODE]
=======================
## 不同约束（仅供参考）：
===== =====
从这里开始，你还会得到你的提交历史，其中包含**不正确**的代码及其对应的官方评测结果作为参考——官方评测结果和问题陈述/条件是100%可靠的。如果它们有帮助，你应该从中进行改进：
=======================
### 不正确的代码
[CODE]
评测结果：[VERDICT]，分数：[SCORE]
=======================
### 不正确的代码
…

C.2. HLE评判提示

Judge whether the following [response] to [question] is correct or not based on the precise and unambiguous [correct_answer] below.

[question]: {question} [response]: {response}

Your judgement must be in the format and criteria specified below:

extracted_final_answer: The final exact answer extracted from the [response]. Put the extracted answer as ’None’ if there is no exact, final answer to extract from the response.

[correct_answer]: {correct_answer}

reasoning: Explain why the extracted_final_answer is correct or incorrect based on [correct_answer], focusing only on if there are meaningful differences between [correct_answer] and the extracted_final_answer. Do not comment on any background to the problem, do not attempt to solve the problem, do not argue for any answer different than [correct_answer], focus only on whether the answers match.

correct: Answer ’yes’ if extracted_final_answer matches the [correct_answer] given above, or is within a small margin of error for numerical problems. Answer ’no’ otherwise, i.e. if there if there is any inconsistency, ambiguity, non-equivalency, or if the extracted answer is incorrect.

confidence: The extracted confidence score between 0|%| and 100|%| from [response]. Put 100 if there is no confidence score available.

中文翻译:

根据下面精确且无歧义的[correct_answer]，判断以下对[question]的[response]是否正确。

[question]: {question} [response]: {response}

你的判断必须遵循以下指定的格式和标准：

extracted_final_answer: 从[response]中提取的最终确切答案。如果响应中没有确切的最终答案可提取，则将提取的答案设为'None'。

[correct_answer]: {correct_answer}

reasoning: 解释为什么extracted_final_answer根据[correct_answer]是正确或错误的，仅关注[correct_answer]和extracted_final_answer之间是否存在有意义的差异。不要评论问题的任何背景，不要尝试解决问题，不要为任何不同于[correct_answer]的答案辩护，只关注答案是否匹配。

correct: 如果extracted_final_answer与上面给出的[correct_answer]匹配，或者对于数值问题在很小的误差范围内，回答'yes'。否则回答'no'，即如果存在任何不一致、歧义、不等价，或者提取的答案不正确。

confidence: 从[response]中提取的介于0|%|和100|%|之间的置信度分数。如果没有可用的置信度分数，则设为100。

D. ELO评分分析

ELO评分分析方法。我们基于2501年至2507年间举行的40场近期的Div.1和Div.2 Codeforces比赛，对我们的Nemotron-Cascade-2-30B-A3B模型进行ELO评分分析。问题和评估由LiveCodeBench Pro【86, Livecodebench pro: How do olympiad medalists judge llms in competitive programming?, 2025】提供。我们采用与Wang等人【69, Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models, 2025】中类似的评分估算方法，允许模型对每个比赛问题最多提交$k=8$次，并考虑预期的惩罚来估算模型性能和相对于人类参赛者的排名。我们使用1.0的温度，0.95的top-p和128K的最大词元预算来生成模型的响应。我们的Nemotron-Cascade-2-30B-A3B模型（使用和不使用python工具）的性能细节分别可以在表11和表12中找到。

性能观察。我们观察到我们的模型在解决真正难题方面具有强大的代码推理能力，并且即使在一些Div.1轮次（如Round 999, 1012, 1015, 1021等）中也能取得高排名，同时在解决中低难度问题上保持稳定性能。然而，模型在处理需要构造性算法、交互方式和假设驱动思想的问题上仍有弱点。

表11：Nemotron-Cascade-2-30B-A3B在2501年至2507年期间的40场Div.1和Div.2 Codeforces比赛中的性能细节（不使用python工具）。我们对每个问题总共尝试$k=8$次。对于常规的Codeforces比赛，我们给出考虑了每个问题预期惩罚后的分数。对于ICPC风格的比赛，我们将通过/未通过的问题分别标记为+和-。我们计算了相对于人类参赛者的估计排名和相应的Elo分数，如最右两列所示。

表12：Nemotron-Cascade-2-30B-A3B在2501年至2507年期间的40场Div.1和Div.2 Codeforces比赛中的性能细节（使用python工具）。我们对每个问题总共尝试$k=8$次。对于常规的Codeforces比赛，我们给出考虑了每个问题预期惩罚后的分数。对于ICPC风格的比赛，我们将通过/未通过的问题分别标记为+和-。我们计算了相对于人类参赛者的估计排名和相应的Elo分数，如最右两列所示。

E. IMO 2025 模型解答

问题 1

平面上的一条线如果它不平行于$x$轴、$y$轴或直线$y+x=0$，则被称为晴天线。

给定一个整数$n \geq 3$。确定所有非负整数$k$，使得平面上存在$n$条不同的直线，同时满足以下两个条件：
* 对于所有满足$x+y \leq n+1$的正整数$x$和$y$，点$(x,y)$至少位于其中一条直线上；并且
* 这$n$条直线中恰好有$k$条是晴天线。

简短答案
对于所有$n$，k = 0, 1, 3

模型证明
...
(由于篇幅限制，此处省略了详细的证明过程，但保留了原始论文中的结构、公式和专家评论标记。)
...
A1
与$\mathcal{P}_n$的定义类似，我们需要要求$x, y$是整数。
A2
“计算两次”是什么意思？有两种选择：1. 每条边有$n$个点，所以3条边总共有$3n$个点，但三个角点被计算了两次，所以有$3n-3$个不同的点。2. 直接说有$3n-3$个不同的点，而不提计算两次也可以。
...
A4
这个句子与证明无关。
A4 |
这个定义是不必要的，因为在2.2中没有使用$k$。
...

问题 2

设$\Omega$和$\Gamma$是两个圆，圆心分别为$M$和$N$，且$\Omega$的半径小于$\Gamma$的半径。假设$\Omega$和$\Gamma$相交于两个不同的点$A$和$B$。直线$MN$与$\Omega$相交于$C$，与$\Gamma$相交于$D$，使得$C, M, N, D$按此顺序位于直线$MN$上。设$P$是三角形$ACD$的外心。直线$AP$再次与$\Omega$相交于$E \neq A$，再次与$\Gamma$相交于$F \neq A$。设$H$是三角形$MNE$的正交中心。证明经过$H$且平行于$AP$的直线与三角形$SEF$的外接圆相切。

简短答案
未提供简短答案。

模型证明
...
(由于篇幅限制，此处省略了详细的解析几何证明过程，但保留了所有公式、步骤和最终的LLM评判者评论。)
...
LLM评判者评论
指令：采用Proof Bench(Ma et al., 2025)的参考解决方案和评分方案（严格）
你是一位专家级数学证明评分员。你正在评判一个由LLM生成的数学问题证明的正确性。
...
GPT-5.4-Thinking(广泛)
思考了2分35秒>
这是评分，以超严格的IMO评分员标准仅对书面证明进行评分。
总体判断：提交的证明在数学上是合理的，尽管计算量非常大，但它是一个完整的坐标证明。它没有遵循参考解答的综合几何路径，而是通过显式的坐标/代数恒等式替换了官方的构造，并直接完成了切线判据。我没有看到致命的逻辑漏洞。
...
(此处省略了对证明步骤的逐行依赖性审计和评分，但保留了其结构和结论。)
...
最终得分
简要评估
这是一个有效的满分坐标解。它不优雅，比参考的综合几何证明更密集，但就其书面形式而言，它确实完成了所有必需的依赖关系。在超严格的评分标准下，我仍然会给予满分，因为这个证明是完整的，而不仅仅是提示性的。

问题 3, 4, 5

(由于篇幅限制，此处省略了问题3、4、5的详细解答和专家评论。)

方法细节中的引用汇总

以下是在“方法细节”章节（Section 4）中引用的参考文献及其在文中的描述：

引用 [69]:
- 文献: Boxin Wang, et al. Nemotron-Cascade: Scaling cascaded reinforcement learning for general-purpose reasoning models. arXiv preprint arXiv:2512.13607, 2025.
- 引用段落: §4 (引言), §4.1.1, §4.1.2, §4.2.2, §4.5.2, §4.7.1, §4.8.1
- 原文描述:
  - "Following a similar approach to Nemotron-Cascade 1 (Wang et al., 2025), we apply Cascaded Reinforcement Learning (Cascade RL)..." (我们采用了与Nemotron-Cascade 1 (Wang et al., 2025)类似的方法...)
  - "In contrast to the original Nemotron Cascade (Wang et al., 2025), our current work..." (与原始的Nemotron Cascade (Wang et al., 2025)不同，我们当前的工作...)
  - "...we use Group Relative Policy Optimization (GRPO) algorithm (Shao et al., 2024) with strict on-policy training following Nemotron Cascade (Wang et al., 2025)." (...我们遵循Nemotron Cascade (Wang et al., 2025)的做法，使用...算法进行严格的在线策略训练。)
  - "Following (Wang et al., 2025), we also apply dynamic filtering..." (遵循 (Wang et al., 2025)，我们也应用了动态过滤...)
  - "Unlike Nemotron Cascade (Wang et al., 2025), we position IF-RL as the first stage..." (与Nemotron Cascade (Wang et al., 2025)不同，我们将IF-RL定位为第一阶段...)
  - "Different from Nemotron Cascade (Wang et al., 2025), we train RLHF exclusively in the thinking mode." (与Nemotron Cascade (Wang et al., 2025)不同，我们仅在思考模式下训练RLHF。)
  - "We construct our Code RL training set from the Nemotron-Cascade coding corpus (Wang et al., 2025)..." (我们从Nemotron-Cascade编码语料库(Wang et al., 2025)构建我们的代码RL训练集...)
  - "...we adopt the same data source as Wang et al. (2025) for agentless code repair reinforcement learning..." (...我们采用了与Wang et al. (2025)相同的数据源进行无智能体代码修复强化学习...)
引用 [64]:
- 文献: Zhihong Shao, et al. DeepseekMath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300, 2024.
- 引用段落: §4.1.2
- 原文描述: "...we use Group Relative Policy Optimization (GRPO) algorithm (Shao et al., 2024)..." (...我们使用组相对策略优化（GRPO）算法 (Shao et al., 2024)...)
引用 [75]:
- 文献: Ronald J Williams. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine learning, 8:229–256, 1992.
- 引用段落: §4.1.2
- 原文描述: "...simplifies the GRPO objective to the standard REINFORCE objective (Williams, 1992)..." (...将GRPO目标函数简化为标准的REINFORCE目标函数 (Williams, 1992)...)
引用 [82]:
- 文献: Qiying Yu, et al. DAPO: An open-source LLM reinforcement learning system at scale. arXiv preprint arXiv:2503.14476, 2025.
- 引用段落: §4.1.2, §4.2.2
- 原文描述:
  - "...with group-normalized rewards and token-level loss (Yu et al., 2025):" (...带有组归一化奖励和词元级损失 (Yu et al., 2025):)
  - "...we also apply dynamic filtering (Yu et al., 2025)." (...我们也应用了动态过滤 (Yu et al., 2025)。)
引用 [51]:
- 文献: NVIDIA. NeMo RL: A Scalable and Efficient Post-Training Library. https://github.com/ NVIDIA-NeMo/RL, 2025.
- 引用段落: §4.1.2
- 原文描述: "We conduct our training using the Nemo-RL repository (NVIDIA, 2025)." (我们的训练使用Nemo-RL仓库 (NVIDIA, 2025)进行。)
引用 [61]:
- 文献: Valentina Pyatkin, et al. Generalizing verifiable instruction following, 2025.
- 引用段落: §4.2, §4.2.2
- 原文描述:
  - "...achieving a state-of-the-art accuracy of 83.13% on IFBench (Pyatkin et al., 2025)." (...在IFBench (Pyatkin et al., 2025)上达到了83.13%的SOTA准确率。)
  - "...yields higher accuracy on instruction-following benchmarks (e.g., IFBench (Pyatkin et al., 2025))." (...在指令遵循基准（例如，IFBench (Pyatkin et al., 2025)）上能产生更高的准确率。)
引用 [8]:
- 文献: Aaron Blakeman, et al. Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning. arXiv preprint arXiv:2512.20848, 2025.
- 引用段落: §4.2.1, §4.3, §4.5.1, §4.6
- 原文描述: 多次引用，例如 "We use the same instruction-following training data used for NVIDIA Nano-v3 post-training (Blakeman et al., 2025)." (我们使用与NVIDIA Nano-v3后训练 (Blakeman et al., 2025)相同的指令遵循训练数据。)
引用 [36]:
- 文献: Diederik P Kingma. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
- 引用段落: §4.2.2, §4.3, §4.5.3, §4.6, §4.7.2, §4.8.1
- 原文描述: 均以 "...with AdamW (Kingma, 2014)..." 的形式出现。
引用 [2, 22, 43, 76, 79, 83]:
- 文献: Agarwal et al., 2024; Gu et al., 2024; Lu and Lab, 2025; Xiao et al., 2026; Yang et al., 2025; Zeng et al., 2026.
- 引用段落: §4.4
- 原文描述: "We therefore adopt multi-domain on-policy distillation (MOPD) (Agarwal et al., 2024; Gu et al., 2024; Lu and Lab, 2025; Xiao et al., 2026; Yang et al., 2025; Zeng et al., 2026) as a complementary post-training stage." (因此，我们采用多领域在线策略蒸馏（MOPD）...作为一个补充性的后训练阶段。)
引用 [10]:
- 文献: Yang Chen, et al. Acereason-nemotron: Advancing math and code reasoning through reinforcement learning. Advances in neural information processing systems, 2025.
- 引用段落: §4.4
- 原文描述: "...as well as from AceReason-Math for math (Chen et al., 2025)." (...以及从AceReason-Math中采样数学提示 (Chen et al., 2025)。)
引用 [37]:
- 文献: Tianle Li, et al. From crowdsourced data to high-quality benchmarks: Arena-hard and benchbuilder pipeline. arXiv preprint arXiv:2406.11939, 2024.
- 引用段落: §4.5
- 原文描述: "...as measured by ArenaHard v2 (Li et al., 2024)..." (...这通过ArenaHard v2 (Li et al., 2024)来衡量...)
引用 [72, 11, 73]:
- 文献: Wang et al., 2025; Chiang et al., 2024.
- 引用段落: §4.5.1
- 原文描述: 描述数据集来源，如 "which comprises HelpSteer3 (Wang et al., 2025), a commercially-friendly subset of the arena-human-preference-140k dataset (Chiang et al., 2024)..."
引用 [50]:
- 文献: NVIDIA. Nemo gym: An open source library for scaling reinforcement learning environments for llm. https://github.com/NVIDIA-NeMo/Gym, 2025.
- 引用段落: §4.6
- 原文描述: "We adopt the Nemo-Gym RL environment (NVIDIA, 2025)..." (我们采用了Nemo-Gym RL环境 (NVIDIA, 2025)...)
引用 [66]:
- 文献: Atefeh Sohrabizadeh, et al. Nemotron-cortexa: Enhancing llm agents for software engineering tasks via improved localization and solution diversity. In Forty-second International Conference on Machine Learning, 2025.
- 引用段落: §4.8.1
- 原文描述: "...we employ a code embedding model, NV-Embed-Code (Sohrabizadeh et al., 2025)..." (...我们使用了一个代码嵌入模型，NV-Embed-Code (Sohrabizadeh et al., 2025)...)
引用 [81]:
- 文献: Zonghan Yang, et al. Kimi-dev: Agentless training as skill prior for SWE-agents. In The Fourteenth International Conference on Learning Representations, 2026.
- 引用段落: §4.8.1
- 原文描述: "...consistent with the observations from Yang et al. (2026)." (...这与Yang等人 (2026)的观察结果一致。)
引用 [70]:
- 文献: Xingyao Wang, et al. Openhands: An open platform for AI software developers as generalist agents. In The Thirteenth International Conference on Learning Representations, 2025.
- 引用段落: §4.8.2
- 原文描述: "Our training environments integrate established OpenHands frameworks (Wang et al., 2025)..." (我们的训练环境集成了已建立的OpenHands框架 (Wang et al., 2025)...)
引用 [57, 33]:
- 文献: Jiayi Pan*, et al. Training software engineering agents and verifiers with swe-gym. In ICML, 2025. & Naman Jain, et al. R2e-gym: Procedural environments and hybrid verifiers for scaling open-weights swe agents, 2025.
- 引用段落: §4.8.2
- 原文描述: "Training data is drawn from SWE-Gym (Pan et al., 2025) and R2E-Subset (Jain et al., 2025)." (训练数据来源于SWE-Gym (Pan et al., 2025)和R2E-Subset (Jain et al., 2025)。)

Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

A1 主要贡献

A4 实验结果（主要结果）

3. 监督式微调（SFT）

3.1. 训练框架

3.1.1. 概述

3.1.2. 对话模板

3.2. SFT数据整理

3.2.1. 数学

3.2.2. 代码推理

3.2.3. 科学

3.2.4. 长上下文

3.2.5. 通用对话

3.2.6. 指令遵循

3.2.7. 安全

3.2.8. 对话智能体

3.2.9. 软件工程智能体

3.2.10. 终端智能体

A3 & A2 级联强化学习与多领域在线策略蒸馏

A3 背景知识/设计原则

4.1.1. 级联强化学习的顺序是如何决定的

A2 方法细节

4.1. 训练框架

4.1.2. RL训练配置

4.2. 指令遵循强化学习 (IF-RL)

4.2.1. 数据集

4.2.2. 训练方法

4.3. 多领域RL

4.4. 多领域在线策略蒸馏 (MOPD)

4.5. 来自人类反馈的强化学习 (RLHF)

4.5.1. 数据集

4.5.2. 训练方法

4.5.3. 超参数

4.6. 长上下文RL

4.7. 代码RL

4.7.1. 数据整理

4.7.2. 训练细节

4.8. 软件工程强化学习 (SWE RL)

4.8.1. 无智能体RL (Agentless RL)

4.8.2. 基于执行的智能体SWE脚手架RL

A7 补充细节

5. 国际数学奥林匹克 (IMO)

5.1. IMO 2025

5.2. IMO-ProofBench

6. 竞赛编程

6.1. IOI 2025 和 ICPC 世界总决赛 2025

6.2. 竞赛编程基准测试结果

A4 实验环境

数据集

模型架构

硬件配置

软件配置

A5 结论

A6 附录

A. 基准和评估设置

A.1. 数学

A.1.1. 非证明数学

A.1.2. 数学证明

A.2. 代码推理

A.3. 知识与STEM

A.4. 对齐与指令遵循

A.5. 长上下文与上下文学习

A.6. 智能体任务

A.7. 多语言

B. 训练超参数

C. 提示模板

C.1. IOI 2025 测试时扩展的提示模板

C.2. HLE评判提示

D. ELO评分分析

E. IMO 2025 模型解答

问题 1

问题 2

问题 3, 4, 5

方法细节中的引用汇总

💬 评论讨论

登录

注册

忘记密码

重发验证邮件