Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning
发表时间: 2026-06 · Tech report by NVIDIA (research.nvidia.com)
文章标题:Nemotron 3 Ultra: 面向智能体推理的开放、高效的混合专家混合 Mamba-Transformer 模型
作者/机构:NVIDIA
A1 主要贡献
本文介绍了 Nemotron 3 Ultra,这是 Nemotron 3 系列中规模最大、功能最强的模型。随着大型语言模型(LLM)的应用从简单的聊天机器人演变为能够自主编写代码、进行研究和完成复杂任务的长时运行智能体,提供快速高效的推理能力变得日益重要。Nemotron 3 Ultra 通过采用混合专家(Mixture-of-Experts, MoE)与混合 Mamba-Attention 架构来应对这一挑战,从而在推理吞吐量与准确率的前沿取得了进步。
研究目标与创新点:
1. 高推理吞吐量与高准确率:Nemotron 3 Ultra 的核心目标是在保持与其他先进模型相当的准确率的同时,大幅提升推理吞吐量。其混合专家架构有助于在给定的活跃参数下实现更高的准确率,而混合 Mamba-Attention 架构则通过降低注意力成本和 KV 缓存占用,显著提高了推理效率。在 8K 输入 / 64K 输出的设置下,与 GLM-5.1-754B-A40B、Kimi-K2.6-1T-A32B 和 Qwen-3.5-397B-17B 相比,其推理吞吐量分别高出 5.9 倍、4.8 倍和 1.6 倍。
2. 先进的训练技术:模型预训练利用了多项关键技术,包括 NVFP4 低精度预训练、LatentMoE、多词元预测(Multi Token Prediction, MTP)。预训练分为两个阶段,共使用 20 万亿文本词元:第一阶段(15T 词元)侧重于数据多样性和广泛领域覆盖,第二阶段(5T 词元)侧重于高质量数据以提升模型精度。
3. 面向智能体的后训练:为了提升模型的长程推理、工具使用和自主任务完成能力,Nemotron 3 Ultra 采用了一个以智能体为中心的后训练流程。该流程包括:
* 监督微调 (SFT):使用精心策划的数据混合来构建模型的基础能力。
* 多环境强化学习 (RLVR):在推理、智能体、代码、安全、可用性和聊天等多种环境中进行统一的强化学习。
* 多教师在线策略蒸馏 (MOPD):将超过十个领域专业教师模型的知识,通过在学生模型生成的 rollout 上进行密集的词元级指导,整合到 Ultra 模型中。
- 长上下文与效率控制:模型支持高达 1M 词元的上下文长度,并配备了推理能效控制功能,允许在推理时动态调整准确率与计算成本的权衡。
- 开源贡献:NVIDIA 开源了 Nemotron 3 Ultra 的基础模型、后训练模型和 NVFP4 量化模型的检查点,以及相关的训练配方、数据和强化学习环境,旨在推动社区发展。
图 1 | Nemotron 3 Ultra 的准确率和吞吐量对比。我们的模型在与其他开放 LLM 达到同等准确率的同时,在 8K 输入 / 64K 输出词元设置下实现了显著更高的推理吞吐量。所有吞吐量数据均在 GB200 上使用 NVFP4 精度在最大吞吐量下报告。Nemotron 3 Ultra 的吞吐量数据来自 TRT-LLM,而所有其他模型的数据使用 vLLM。我们在可用时运行带和不带推测解码的模型,并为每个模型选择最佳数据。
A2 方法细节
2. 预训练
本节详细介绍 Nemotron 3 Ultra 的预训练过程,具体包括其架构、NVFP4 预训练配方、数据、超参数,以及长上下文扩展阶段、模型训练不稳定性问题和基准测试准确率。
2.1. 模型架构
架构概述。Nemotron 3 Ultra 采用了与 Nemotron 3 Super【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】相同的混合 Mamba-Attention 混合专家(MoE)架构,并将其扩展至 5500 亿总参数和每词元 550 亿活跃参数。与 Nemotron 3 Super 一样,我们利用 LatentMoE【【33】Venmugil Elango, Nidhi Bhatia, Roger Waleffe, Rasoul Shafipour, Tomer Asida, Abhinav Khattar, Nave Assaf, Maximilian Golub, Joey Guman, Tiyasa Mitra, Ritchie Zhao, Ritika Borkar, Ran Zilberstein, Mostofa Patwary, Mohammad Shoeybi, and Bita Rouhani. LatentMoE: Toward Optimal Accuracy per FLOP and Parameter in Mixture of Experts, 2026】实现 MoE 层,并使用原生多词元预测(MTP)技术,在预训练期间设置两个预测头以加速推理。这两个 MTP 头共享相同的参数,以实现【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】中所述的鲁棒自回归草稿生成。每个 MTP 头由一个注意力层和一个 MoE 层组成。Nemotron 3 Ultra 的层模式和配置分别如图 2 和表 1 所示。
图 2 | Nemotron 3 Ultra 的层模式。与 Nemotron 3 Super 类似,我们使用混合 Mamba-Attention 架构,并利用 LatentMoE 层进行稀疏扩展。
2.2. NVFP4 预训练
NVFP4 训练配方。我们使用与 Nemotron 3 Super【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】相同的 NVFP4 预训练配方来训练 Nemotron 3 Ultra,利用了 Transformer Engine 开源的 cuBLAS NVFP4 GEMM 内核进行前向传播(fprop)、数据梯度(dgrad)和权重梯度(wgrad)计算。NVFP4 层使用 E2M1 数据类型,对权重进行二维块量化,对输入到 wgrad 的数据应用随机哈达玛变换,并对梯度应用随机舍入【【82】NVIDIA. Pretraining Large Language Models with NVFP4, 2025f】。遵循【【80】NVIDIA. NVIDIA Nemotron 3: Efficient and Open Intelligence, 2025c】和【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】的实践,我们将网络最后 15% 的层(16 层)、Mamba 输出投影、潜在投影、QKV 和注意力投影、MTP 层以及嵌入层保持在更高精度。据我们所知,这是迄今为止最大规模的稳定且准确的 NVFP4 训练实践。
表 1 | Nemotron 3 Ultra 架构维度。
训练健康状况监控。为了监控训练健康状况,我们从 5T、10T 和 16T 词元处的检查点分支出消融实验,将所有张量切换到 BF16,并继续预训练 74B 词元。我们追踪了 BF16 片段与 Nemotron 3 Ultra (NVFP4) 之间训练损失的相对差异。如先前工作所示【【82】NVIDIA. Pretraining Large Language Models with NVFP4, 2025f】,将所有张量切换到 BF16 能显著恢复高精度损失,为高精度训练提供了一个代理指标。在 Nemotron 3 Ultra 上的这三个消融研究显示,与 BF16 片段相比,相对训练损失差距平均低于 0.4%(图 3,上),这比在较小模型变体上观察到的 NVFP4 与 BF16 的训练损失差距要低【【80】NVIDIA. NVIDIA Nemotron 3: Efficient and Open Intelligence, 2025c】。在 BF16 训练的前 5B 词元中,从 5T、10T 和 16T 检查点开始的相对训练损失差距分别为 0.27%、0.28% 和 0.25%。经过 74B 词元的 BF16 训练后,从 5T 和 10T 检查点开始的相对训练损失差距增加到 0.33% 和 0.34%,而从 16T 检查点开始的差距则减少到 0.03%(在最后 5B 词元上平均)。将所有张量切换到 BF16 并未解决 2.7 节中讨论的训练发散问题(图 3,下)。
2.3. 预训练数据
数据更新概述。本节描述了自 Nemotron 3 Super【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】以来我们为预训练新增的数据。我们将在 HuggingFace 上发布这些新数据集。
2.3.1. 代码刷新
代码数据更新。我们从 GitHub 刷新了原始源代码数据,新增了 173B 词元,数据截止日期为 2025 年 9 月 30 日。
图 3 | 上图:从 5T、10T、16T 词元检查点开始,将所有张量切换到 BF16 的消融研究,显示为 NVFP4 和 BF16 之间训练损失的相对百分比差异。每个消融研究的起始损失差距在 0.28% 以内。经过 74B 词元的 BF16 训练后,从 5T 和 10T 检查点开始的损失差距增加到 0.33% 和 0.34%,而从 16T 检查点开始的损失差距减少到 0.03%。下图:从 16T 词元检查点开始的更长 BF16 训练。原始训练损失显示 BF16 和 NVFP4 模型的发散模式相似。在训练发散期间,训练损失的相对差异(%)趋向于零。将所有张量切换到 BF16 并未解决训练发散问题。
2.3.2. Nemotron-Pretraining-Multiple-Choice 和 Nemotron-Pretraining-Generative
合成问答数据。我们从众多公共数据集的训练集中生成了大规模、任务导向的合成问答(Q&A)数据,涵盖了 STEM、事实知识、常识推理、逻辑推理、数学、代码、阅读理解和多语言问答等广泛领域。我们没有使用保留的测试集进行数据生成。源基准测试的训练样本被用作种子,以捕捉任务结构、领域、难度和答案格式,而生成的样本是全新合成的,旨在保留底层测试的能力,而非复制评估实例。我们将生成的数据组织成两个数据集系列:Nemotron-Pretraining-Multiple-Choice,包含带选项和标准化正确答案的合成问题;以及 Nemotron-Pretraining-Generative,包含带自由格式答案的开放式问答样本。对于这两种格式,我们都生成了富含答案的样本,其中在适当时包含了与任务相关的知识、推理或解释性上下文。我们应用了格式检查、模式验证、去重和任务特定过滤来提高数据质量。这些数据集旨在通过在预训练期间让模型接触多样化的任务格式、推理模式和知识领域,促进跨任务的能力迁移。为了验证这些数据的质量,我们在一个 Nemotron 系列的基础检查点上进行了一个 100B 词元的第三阶段持续预训练消融实验。添加面向基准的合成数据后,MMLU-Pro 从 64.8 提升到 66.6,平均代码能力从 73.2 提升到 75.1,常识理解从 72.9 提升到 74.5,GPQA 从 30.8 提升到 41.9,而平均数学能力保持稳定(从 87.6 到 87.9)。
2.3.3. Nemotron-Pretraining-Fact-Seeking
事实寻求数据。该数据集包含从 Finewiki【【91】Guilherme Penedo. Finewiki, 2025】生成的寻求事实的问题。我们分两个阶段生成问题:首先从 Finewiki 文章中提取信息丰富的事实性陈述,然后用每个陈述及其原始上下文提示 Qwen3-30B-A3B-Instruct-2507 生成简答题或选择题。为了验证数据的有效性,我们使用 Nemotron 3 Nano 预训练的中间检查点进行了一项消融研究。我们在训练的最后 100B 词元中注入了事实寻求数据,使得 SimpleQA 的准确率从 40.24 提升到 50.16。由于我们将 SimpleQA 问题转换为选择题格式以便于评估,这些分数与原始 SimpleQA 分数不直接可比。
2.3.4. Nemotron-Pretraining-Moral-Scenarios
道德场景数据。在我们之前发布的 SFT 数据中,我们包含了关于道德场景的选择题。这些问题是使用 Moral Stories【【34】Denis Emelin, Ronan Le Bras, Jena D. Hwang, Maxwell Forbes, and Yejin Choi. Moral stories: Situated reasoning about norms, intents, actions, and their consequences, 2021】中的情境和规范以及 Social Chemistry【【37】Maxwell Forbes, Jena D. Hwang, Vered Shwartz, Maarten Sap, and Yejin Choi. Social chemistry 101: Learning to reason about social and moral norms, 2020】中的行为构建的。在这项工作中,我们对这些样本进行了子集抽样,并使用 Qwen3-235B-A22B-Thinking-2507 创建了一个思维链版本。
2.3.5. Nemotron-Pretraining-Legal
法律领域数据。我们整理并生成了多个针对法律领域的数据集,具体如下:
* 从 HTML 文件中提取的数据集
* Nemotron-Pretraining-Legal-California-Code-Of-Regulations: 加州法规法典,不包括第 6 章和第 24 章。
* Nemotron-Pretraining-Legal-NYCourts-Judicial-Ethics-Opinions: 纽约法院司法道德意见。
* Nemotron-Pretraining-Legal-eCFR: 联邦法规法典。
-
LLM 清洗的数据集
- Nemotron-Pretraining-Legal-Case-Law-Summary: 使用 Qwen3-235B-A22B-Instruct-2507 从过滤版的 Caselaw 数据集中生成了 540 万份摘要。
-
重构格式的数据集
- Nemotron-Pretraining-Legal-CaseHOLD: 我们将 CaseHOLD 数据集转换为选择题格式。
- Nemotron-Pretraining-Legal-Contract-NLI: 对于 ContractNLI 数据集中的每份保密协议,我们提取了标注的假设、答案和证据陈述,并将其附加到源文档中。
-
合成数据集
- Nemotron-Pretraining-Legal-Canadian-Case-Law-Outcome: 我们使用 Qwen3-235B-A22B-Instruct-2507 从加拿大判例法数据集的 CHRT、RPD、RAD 和 RLLR 子集中识别出明确说明上诉结果(允许、驳回或其他)的段落,以及不包含结果的随机段落。
- Nemotron-Pretraining-Legal-Definition-Classification: 我们使用 Qwen3-235B-A22B-Instruct-2507 从 Caselaw 中提取包含定义性语言的段落作为正例,并随机选择不含定义性语言的段落作为反例,用于构建分类司法意见中某段文本是否定义了术语的问题。
- Nemotron-Pretraining-Legal-Diversity-Jurisdiction: 该数据集包含询问原告和被告之间是否存在完全分籍管辖权的问题。问题使用模板生成,人名从 Nemotron Persona 中随机抽样,州和诉因从预定义列表中抽样。我们还使用 Qwen3-235B-A22B-Instruct-2507 对问题进行改写以增加多样性。
- Nemotron-Pretraining-Legal-Function-Of-Decision: 我们从 Caselaw 文档中随机抽样段落,并提示 Qwen3-235B-A22B-Instruct-2507 将其功能分为 7 个预定义类别(事实、程序历史、问题、规则、分析、结论、法令),并进一步平衡了各类别的样本数量。
- Nemotron-Pretraining-Legal-GlobalCit: 该数据集包含有关全球国籍法的问题,根据 GLOBALCIT 数据集的代码手册转换而来。我们使用 Qwen3-235B-A22B-Instruct-2507 将每个问题改写成三个不同版本。
- Nemotron-Pretraining-Legal-LegalBench-CUAD-v2: 该数据集包含询问合同中的某个条款是否为合同理解阿提库斯数据集(CUAD)中定义的特定类型条款的问题。我们使用 Qwen3-235B-A22B-Instruct-2507 清洗了短于 8k 词元的原始 CUAD 合同,从中提取了每种类型的第一个合格条款,并为每个提取的条款生成了反例。对于某些识别准确率较低的类别,我们根据标签手册编写了更长的带有详细说明的提示来提取合格条款。
- Nemotron-Pretraining-Legal-ToS-Clause-Understanding: 该数据集包含服务条款理解问题。我们使用 Qwen3-235B-A22B-Instruct-2507 为 TOS 数据集中的每个条款生成了一个相关的法律问题。
- Nemotron-Pretraining-Legal-ToSDR-QA: 该数据集包含使用 Qwen3-235B-A22B-Instruct-2507 对 ToSDR 服务条款语料库中每个合同的不同部分或问题提出的“是/否”问题。
- Nemotron-Pretraining-Legal-eCFR-QA: 该数据集包含从联邦法规法典生成的类似 DiverseQA 的数据。我们从 CFR 摘录中生成了各种问题,并使用 Qwen3-235B-A22B-Instruct-2507 评估每个答案的正确性。
我们使用 Nemotron 3 Nano(一个拥有 30B 总参数和 3B 活跃参数的 MoE 模型)的中间检查点进行了一项消融研究。从一个 14.9T 词元的检查点开始,我们使用第二阶段混合数据额外训练了 100B 词元,并在 LegalBench 的 100 多个子任务上评估了模型。实验结果表明,这些法律专用数据集显著提高了模型在 LegalBench 各类任务上的准确率,平均准确率从 64.6 提升到 74.7。
2.3.6. 数据混合与排序
数据混合与排序策略。用于训练 Nemotron 3 Ultra 的数据混合方案是对训练 Nemotron 3 Super 和 Nano【【79】NVIDIA. Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025b】,【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】所用数据混合的调整,并加入了新的和更新的数据集。遵循【【35】Steven Feng, Shrimai Prabhumoye, Kezhi Kong, Dan Su, Mostofa Patwary, Mohammad Shoeybi, and Bryan Catanzaro. Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining, 2024】的方法,我们设计数据混合以平衡多样性和质量。我们采用其提出的两阶段课程学习法,从偏向数据集多样性的数据混合(第一阶段)过渡到偏向数据集质量的数据混合(第二阶段)。这个过渡发生在约 15 万亿词元之后,对应约 75% 的预训练过程。我们在图 4 中展示了第一阶段和第二阶段数据混合的高层分解。关于质量评估和数据集组成的更多细节,请参见【【35】Steven Feng, Shrimai Prabhumoye, Kezhi Kong, Dan Su, Mostofa Patwary, Mohammad Shoeybi, and Bryan Catanzaro. Maximize Your Data’s Potential: Enhancing LLM Accuracy with Two-Phase Pretraining, 2024】以及 Nemotron 3 Super 和 Nano 的报告【【79】NVIDIA. Nemotron 3 nano: Open, efficient mixture-of-experts hybrid mamba-transformer model for agentic reasoning, 2025b】,【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】。预训练语料库在两个数据混合阶段中涵盖了 19 个高级类别。最大的组成部分是经过质量过滤和合成的网络爬取数据,占第一阶段词元的约 49% 和第二阶段词元的约 38%,包括:crawl-medium、crawl-medium-high、crawl-high、syncrawl-medium 和 syn-crawl-high。其他类别包括经过质量过滤并在第二阶段增加权重的 finepdfs【【57】Hynek Kydlíček, Guilherme Penedo, and Leandro von Werra. Finepdfs, 2025】、数学数据【【70】Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, and Bryan Catanzaro. Nemotron-cc-math: A 133 billion-token-scale high quality math pretraining dataset, 2025】,【【5】Syeda Nahida Akter, Shrimai Prabhumoye, John Kamalu, Sanjeev Satheesh, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, and Bryan Catanzaro. Mind: Math informed synthetic dialogues for pretraining llms, 2025】、代码数据、Nemotron-CC-Code、维基百科、学术文本、法律数据、涵盖 11 种语言(阿拉伯语、中文、法语、德语、希伯来语、印地语、意大利语、日语、韩语、葡萄牙语、西班牙语)的多语言数据、Crawl++ 和合成的 SFT 风格数据。Crawl++ 由 OpenWebText、BigScience【【58】Hugo Laurençon, Lucile Saulnier, Thomas Wang, Christopher Akiki, Albert Villanova del Moral, Teven Le Scao, Leandro Von Werra, Chenghao Mou, Eduardo González Ponferrada, Huu Nguyen, Jörg Frohberg, Mario Šaško, Quentin Lhoest, Angelina McMillan-Major, Gerard Dupont, Stella Biderman, Anna Rogers, Loubna Ben allal, Francesco De Toni, Giada Pistilli, Olivier Nguyen, Somaieh Nikpoor, Maraim Masoud, Pierre Colombo, Javier de la Rosa, Paulo Villegas, Tristan Thrush, Shayne Longpre, Sebastian Nagel, Leon Weber, Manuel Muñoz, Jian Zhu, Daniel Van Strien, Zaid Alyafeai, Khalid Almubarak, Minh Chien Vu, Itziar Gonzalez-Dios, Aitor Soroa, Kyle Lo, Manan Dey, Pedro Ortiz Suarez, Aaron Gokaslan, Shamik Bose, David Adelani, Long Phan, Hieu Tran, Ian Yu, Suhas Pai, Jenny Chim, Violette Lepercq, Suzana Ilic, Margaret Mitchell, Sasha Alexandra Luccioni, and Yacine Jernite. The bigscience roots corpus: A 1.6tb composite multilingual dataset, 2023】和 Reddit 数据集组成。根据【【6】Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, and Bryan Catanzaro. Front-loading reasoning: The synergy between pretraining and post-training data, 2026】的研究,我们加入了细分为 sft-code、sft-stem 和 sft-general 的 SFT 风格数据,该研究证明了其有效性。
2.4. 超参数
超参数设置。我们沿用了 Nemotron 3 Super【【84】NVIDIA. Nemotron 3 Super: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning, 2026】的训练配方和超参数,但做了一些调整:对于 Nemotron 3 Ultra,我们在总共 20 万亿词元的训练周期内使用了 Warmup-Stable-Decay (WSD) 学习率调度。我们将学习率在 2000 亿词元内预热至峰值 $2.5 \times 10^{-4}$。在最后的 5 万亿词元,我们根据负平方根衰减调度将学习率衰减至最小值 $2.5 \times 10^{-6}$。与 Nemotron 3 Super 一样,我们在整个预训练过程中使用离线检查点合并进行评估分析【【107】Changxin Tian, Jiapeng Wang, Qian Zhao, Kunlong Chen, Jia Liu, Ziqi Liu, Jiaxin Mao, Wayne Xin Zhao, Zhiqiang Zhang, and Jun Zhou. WSM: Decay-free learning rate schedule via checkpoint merging for LLM pre-training, 2025】,合并窗口大小为 500B 词元,检查点间隔为 25B 词元,权重设置以模拟我们的学习率衰减调度。在预训练结束时,最终的检查点选择是在大量使用不同合并设置(不同的已见词元数、从 125B 到 1T 词元的合并窗口,以及使用顺序、随机和反向排序)创建的检查点合并中进行的。一个在知识、数学和代码之间表现出均衡权衡的 500B 词元合并窗口检查点被选用于长上下文阶段。我们使用了 0.1 的 MTP 损失缩放因子。所有其他超参数与 Nemotron 3 Super 保持一致。
图 4 | 两个预训练阶段的数据混合。我们设计第一阶段的数据混合偏向多样性,第二阶段的数据混合偏向质量。
2.5. 长上下文扩展
长上下文扩展阶段。与 Nemotron 3 Super 和 Nano 类似,我们在预训练结束时增加了一个长上下文阶段(LC-Phase)。在 LC-Phase 中,我们进行了持续预训练(CPT),为基础模型赋予长上下文能力。我们使用了 $2.5 \times 10^{-6}$ 的恒定学习率。我们在 GB200 GPU 上使用了 32 路上下文并行、8 路张量并行、128 路专家并行和 2 路流水线并行进行训练。
长上下文数据与训练策略。除了在 Nemotron 3 Super 和 Nano 中使用的长上下文文档问答数据外,我们还在混合数据中进一步加入了长上下文 SFT 风格的数据。我们没有在混合数据中使用任何 RULER 风格的数据。总体而言,混合数据中长上下文数据占 46%,第二阶段数据占 54%。我们在 1,048,576(1M)的上下文长度上进行了 92% 的迭代,而在剩余的 8% 的时间里,我们在 4,096(4K)的上下文长度上进行训练,以保持短基准测试的准确性。请注意,每次迭代要么使用 1M 长度训练,要么使用 4K 长度训练,我们没有在一次迭代中混合序列长度。每次迭代我们都持续训练 25,165,824 个词元。我们只将数学和代码的 SFT 风格数据放入 4K 迭代中,因为我们发现这对于在实现强大的长上下文 RULER 分数的同时保持短基准测试指标效果最好。最终,LC-Phase 训练了 33B 词元。
2.6. 基础模型评估
评估设置概述。除非另有说明,Nemotron 3 Ultra 550B-A55B Base 报告的所有评估结果均通过 Nemo Evaluator SDK 和 NVIDIA 的开源 LM Evaluation Harness 容器收集。为保证可复现性,更多评估设置细节可在 Nemo Evaluator SDK 示例文件夹中找到。用于评估的开源 LM Evaluation Harness 容器(通过 NVIDIA 的 Nemo Evaluator SDK 打包)可在此处找到。该容器基于 LM Evaluation Harness 构建,评估设置如下:
- 通用知识:我们评估 MMLU【【44】Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring Massive Multitask Language Understanding, 2021】、MMLU-Pro、AGIEval-En 和 GPQA。我们根据表 2 所示的特定基准评估协议报告精确匹配或准确率指标。缺失条目表示在比较集中没有相应结果。
- 数学推理:我们评估 GSM8K【【19】Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training Verifiers to Solve Math Word Problems, 2021】(8-shot 思维链精确匹配)和 Minerva Math(4-shot 精确匹配)。
- 代码任务:我们使用 EvalPlus-sanitized 变体【【65】Jiawei Liu, Chunqiu Steven Xia, Yuyao Wang, and Lingming Zhang. Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation, 2023】评估 HumanEval【【16】Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, et al. Evaluating Large Language Models Trained on Code, 2021】和 MBPP【【8】Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, and Charles Sutton. Program Synthesis with Large Language Models, 2021】。我们报告从每个提示的 32 次生成中估计的 HumanEval 和 MBPP-Sanitized 的 pass@1 采样结果(若可用)。
- 常识推理:我们报告 ARC-Challenge【【18】Peter Clark, Isaac Cowhey, Oren Etzioni, Tushar Khot, Ashish Sabharwal, Carissa Schoenick, and Oyvind Tafjord. Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge, 2018】、OpenBookQA【【72】Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a Suit of Armor Conduct Electricity? A New Dataset for Open Book Question Answering, 2018】、PIQA【【14】Yonatan Bisk, Rowan Zellers, Ronan Le Bras, Jianfeng Gao, and Yejin Choi. PIQA: Reasoning about Physical Commonsense in Natural Language, 2019】、HellaSwag【【122】Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. HellaSwag: Can a Machine Really Finish Your Sentence?, 2019】和 WinoGrande【【98】Keisuke Sakaguchi, Ronan Le Bras, Chandra Bhagavatula, and Yejin Choi. WinoGrande: An Adversarial Winograd Schema Challenge at Scale, 2019】,使用表 2 所示的准确率或归一化准确率指标。
- 多语言能力:我们评估 MGSM【【100】Freda Shi, Mirac Suzgun, Markus Freitag, Xuezhi Wang, Suraj Srivats, Soroush Vosoughi, Hyung Won Chung, Yi Tay, Sebastian Ruder, Denny Zhou, Dipanjan Das, and Jason Wei. Language models are multilingual chain-of-thought reasoners, 2022】(8-shot 原生思维链精确匹配)和 Global MMLU-Lite【【101】Shivalika Singh, Angelika Romanou, Clémentine Fourrier, David I. Adelani, Jian Gang Ngui, Daniel Vila-Suero, Peerat Limkonchotiwat, Kelly Marchisio, Wei Qi Leong, Yosephine Susanto, Raymond Ng, Shayne Longpre, Wei-Yin Ko, Madeline Smith, Antoine Bosselut, Alice Oh, Andre F. T. Martins, Leshem Choshen, Daphne Ippolito, Enzo Ferrante, Marzieh Fadaee, Beyza Ermis, and Sara Hooker. Global mmlu: Understanding and addressing cultural and linguistic biases in multilingual evaluation, 2024】(5-shot 准确率)。报告的综合分数是可用语言特定结果的平均值。
- 长上下文能力:我们评估 RULER【【46】Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, and Boris Ginsburg. RULER: What’s the Real Context Size of Your Long-Context Language Models?, 2024】在 64K 到 1M 上下文长度的表现。缺失条目表示在比较集中没有相应结果。
Nemotron 3 Ultra 550B-A55B Base 与 deepseek-ai/DeepSeek-V3.2-Exp-Base、mistralai/Mistral-Large-3-675B-Base-2512、moonshotai/Kimi-K2-Base 和 zai-org/GLM-4.5-Base 的评估结果比较见表 2。
表 2 | Nemotron-3-Ultra-550B-A55B-Base、deepseek-ai/DeepSeek-V3.2-Exp-Base、mistralai/Mistral-Large-3-675B-Base-2512、moonshotai/Kimi-K2-Base 和 zai-org/GLM-4.5-Base 的比较。最佳可用结果以粗体标出。
2.7. 模型稳定性
图 5 | 训练和验证损失与词元数的关系。两次使用“第一阶段”数据的独立运行(“原始”和“回滚并使用 FP32 RS”)以不同颜色显示;两者都导致了损失发散。图中插图显示了每次发散的放大版本。“回滚并使用 FP32 RS”是通过从原始运行中第一个损失发散前的检查点开始,并使用原始的 FP32 梯度缩减配方获得的。
训练发散现象。在预训练期间,我们观察到两次训练发散的实例,其特征是训练交叉熵损失和 wgrad L2 范数同时增加。如图 5 所示。
图 6 | 在图 5 所示的第一次发散区域附近,训练(下一个词元的交叉熵损失)、MTP-1 和 MTP-2 损失与词元数的关系。MTP-2 损失首先发散,并伴有频繁的大幅尖峰。
发散现象1:输出层局部梯度累积精度。第一次发散发生在大约 8T 词元处,归因于将输出层的局部梯度累积精度从 FP32 降低到 BF16(为了将数据并行梯度缩减移至网络上以 BF16 格式进行,作为吞吐量优化)。如 §2.1 和 §2.4 所述,Nemotron 3 Ultra 使用 2 个 MTP 块,MTP 损失缩放因子为 0.1(每个 MTP 块 0.05);因此,当使用只有 7 个尾数位的 BF16 时,MTP 块对共享输出层的 wgrad 贡献基本上会丢失。图 6 显示 MTP-2 损失在训练(和验证)损失之前开始出现尖峰/发散。回滚到较早的检查点并恢复到完整的 FP32 梯度缩减配方后,训练重新稳定(如图 5 所示)。
发散现象2:原因未定。对于第二次发生在约 16T 词元处的训练发散,我们通过消融实验发现,在回滚到 15T 词元检查点后立即开始学习率退火(无论是 5T 还是 10T 的衰减)可以缓解发散(图 7)。我们最终做出了一个实际的决定,将总预训练词元范围缩短到 20T 词元。为了更好地理解发散的原因,我们研究了在整个预训练词元范围内以及 Super 和 Ultra 模型之间不同模型张量的行为。虽然我们没有找到导致这种不稳定性的确切原因,但我们发现了两个有趣的现象:
图 7 | 第二次发散(如图 5 所示)附近的训练和验证损失,图中显示了发散的原始运行(“回滚并使用 FP32 RS”),以及在回退到发散前检查点(约 15T 词元)后,针对不同词元范围进行早期学习率退火的两次运行。
- 不平衡与死亡专家 (Imbalanced and Dead Experts)。作为预训练健康状况的一个可能代理指标,可以持续监控混合专家(MoE)层内可用专家之间词元的分布情况。当模型开始发散或遇到优化困难时,路由机制通常会退化,导致严重的词元倾斜。在极端情况下,这会导致“死亡专家”,即接收到零或接近零词元的专家,实际上退出了学习过程。为了量化专家不平衡,我们测量了 MaxVio 指标【【22】DeepSeek-AI. Deepseek-v3.2-exp: Boosting long-context efficiency with deepseek sparse attention, 2025a】,该指标计算任何单个专家上的峰值负载与完全平衡的平均值之比。
MaxVio = $max_{1 \le i \le N} (T_i)$,其中 $T_i$ 是路由到专家 $i$ 的词元数,$\bar{T}$ 是每个专家的平均词元数(计算为 $\frac{\sum T_i}{N}$,其中 $N$ 是专家总数)。我们注意到,可达到的最大 MaxVio 是 $MaxVio_{max} = \frac{N}{k}$,其中 $k$ 是每个词元路由到的专家数。对于 Nemotron 3 Ultra 和 Super,这给了我们 $MaxVio_{max} = 23
💬 评论讨论
欢迎在这里分享您的想法和见解!