作者/机构: NVIDIA
本文介绍了NVIDIA Nemotron 3模型家族,这是一个专为代理式AI应用设计的高效、开放且领先准确度的模型系列。
核心问题与研究目标:当前构建和扩展复杂多智能体环境面临着模型推理效率和准确性的双重挑战。此外,处理长代码片段、大量对话历史和大型文档等长上下文任务也对模型能力提出了更高要求。Nemotron 3旨在通过创新的架构和训练技术,突破现有模型的准确性-推理吞吐量边界,同时支持百万级别的长上下文处理,并赋予模型强大的推理、多步工具使用和可控的推理预算能力。
创新点与主要贡献:
1. 混合Mamba-Transformer MoE架构:Nemotron 3采用了一种混合专家(MoE)的Mamba-Transformer架构。该架构主要由Mamba-2层和MoE层交错构成,并辅以少量自注意力层(如图1所示)。这种设计旨在最大化推理效率,尤其是在推理工作负载下,相比同等规模的Transformer MoE模型,其吞吐量更高,上下文扩展能力更强(如图2所示)。
超长上下文支持:模型家族支持高达1M token的上下文长度,这对于需要处理长代码、对话历史或用于RAG流程的大量文档等任务至关重要。
先进的训练与后训练技术:
开放与透明:NVIDIA承诺将开放发布所有模型权重、超过10万亿token的数据集以及训练方案,推动社区发展。
Nemotron 3模型的混合架构设计。Nemotron 3系列模型采用了混合Mamba-Transformer MoE架构。选择该架构的核心考量是推理效率,特别是针对推理工作负载,同时它在准确性上优于或持平于标准Transformer模型【索引14,An Empirical Study of Mamba-based Language Models,2024】、【索引9,Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models,2025】、【索引8,NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model,2025】。具体而言,Nemotron 3模型并非将混合专家(MoE)层与计算成本高昂的自注意力层交错排列——后者在生成过程中需要处理线性增长的KV缓存——而是主要将MoE层与计算成本更低的Mamba-2层交错排列【索引2,Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality,2024】,Mamba-2层在生成过程中仅需存储一个恒定的状态。Nemotron 3模型中只包含了极少数的注意力层。例如,Nemotron Nano 3的层模式如图1所示。
高推理吞吐量与长上下文准确性。通过最小化昂贵的自注意力层,Nemotron 3模型在常见的推理工作负载(例如,8k输入序列长度/16k输出序列长度)下,能够实现比同等规模的Transformer MoE更高的推理吞吐量。例如,Nemotron 3 Nano 30B-A3B的吞吐量比Qwen3-30B-A3B高3.3倍(见图2),并且在更长序列下加速效果更明显。尽管如此,这种混合架构仍能实现最先进的准确性,即便是在长上下文查找任务上(例如,在1M token输入序列上的RULER测试,见图2)。
架构的平衡组合。总体而言,Nemotron 3架构利用了混合专家层、自注意力层和Mamba-2层的平衡组合。其中,混合专家层允许稀疏参数扩展,从而在给定的计算预算下带来更高的准确性;自注意力层能够实现高保真的“全体到全体”(all-to-all)信息路由;而Mamba-2层则以固定的推理时计算和内存开销实现了序列建模。
MoE层在不同部署场景下的性能瓶颈。Transformer模型通常部署在两种不同的环境中:一是优先考虑响应时间的延迟导向部署,二是最大化token处理能力的吞吐量导向部署。混合专家(MoE)层在这两种场景下面临着根本不同的性能瓶颈。在延迟导向的部署中,模型每次处理几十到几百个token以最小化端到端延迟。在这种情况下,MoE的计算受限于内存带宽:从内存中读取专家权重占据了主要成本,远超实际计算时间。每个专家矩阵的大小为$H \times C$,其中$H$是模型的隐藏维度,$C$是专家前馈网络(FFN)的中间维度,因此降低内存带宽成本需要减小$H$或$C$。在吞吐量导向的部署中,模型每次迭代处理数千个token以最大化吞吐量。在这种情况下,将token分派给专家并聚合结果所需的“全体到全体”通信成为主要瓶颈。通信量与top-$k$活跃专家的数量$k$和隐藏维度$H$成线性关系,但与专家FFN的中间维度$C$无关。同时,FFN层的表达能力主要由有效的非线性预算控制,该预算大致与$k \times C$成正比。
LatentMoE的设计思想。我们的目标是在不影响推理吞吐量或延迟的情况下提高模型质量。基于上述洞见,我们采用了一个特定的设计选择。为了提高每字节的准确性,我们缩小了被路由的专家输入维度$H$,以减少通信和内存成本,并将节省下来的容量重新投入到增加非线性预算和专家多样性中,具体方法是同时扩大专家总数$E$和每个token的top-$k$活跃专家数。LatentMoE是一种实现此策略的新型架构。
LatentMoE架构详解。LatentMoE架构如图3b所示。每个token嵌入首先从原始隐藏维度$H$投影到一个维度更小的潜在表示$ℓ < H$,然后被路由到一个扩展的专家集合中,这些专家完全在这个潜在空间中操作,最后再投影回原始的隐藏维度$H$。通过将被路由的专家计算和“全体到全体”通信转移到潜在空间,每个专家的权重加载和通信负载都比标准MoE减少了$H/ℓ$倍。我们利用这些参数和带宽节省,将专家总数从$E$增加到$E' = E \cdot H/ℓ$,并将每个token的top-$k$活跃专家数从$k$增加到$k' = k \cdot H/ℓ$。维度的减少抵消了专家数量和活跃专家数量的增加,这使得在相似的计算和通信预算下能够实现更高的模型质量。为了保持质量,所有非路由计算,包括MoE的路由门(gating network)、共享专家计算以及非专家层,都保留在原始的隐藏维度$H$中,因为它们对目标瓶颈的贡献不显著。
LatentMoE的性能验证。表1比较了标准MoE和LatentMoE在下游任务上的性能。为了提供全面的评估,我们报告了聚合分数:“Code”是HumanEval、HumanEval+、MBPP和MBPP+的平均分;“Math”是GSM8K CoT和MATH-500的平均分;“Commonsense Understanding”是RACE、ARC-Challenge、HellaSwag和Winogrande的平均分。两个模型都具有80亿活跃参数和730亿总参数,并使用相同的超参数训练了1万亿个token。具体来说,标准MoE模型使用的隐藏维度大小为$H = 4096$,共有128个专家,6个活跃专家;而LatentMoE模型使用的潜在维度为$ℓ = 1024$,共有512个专家,22个活跃专家。如结果所示,LatentMoE在所有评估任务上都持续优于标准MoE基线。
| 模型 | MMLU-Pro | MMLU | Code | Math | Commonsense Understanding |
|---|---|---|---|---|---|
| Standard MoE (8.09B active / 72.6B total) | 48.30 | 70.10 | 51.95 | 78.32 | 81.73 |
| LatentMoE (8.02B active / 72.8B total) | 52.87 | 72.11 | 55.14 | 80.19 | 82.10 |
MTP对模型准确性和推理效率的提升。多Token预测(MTP)已成为一种非常有效的技术,用于提升大型语言模型的准确性和推理效率。先前的工作——包括DeepSeekV3【索引4,DeepSeek-V3 Technical Report,2025】和最初的MTP公式【索引5,Better & Faster Large Language Models via Multi-token Prediction,2024】——表明,预测多个未来token能提供更丰富的训练信号,并促使模型提前规划几步。这些辅助预测也自然地成为推测解码(speculative decoding)【索引7,Fast Inference from Transformers via Speculative Decoding,2023】的草稿token,从而在不需要独立草稿模型的情况下实现显著的端到端加速。
MTP在Nemotron 3中的应用效果。在Nemotron 3中,集成MTP在验证损失以及广泛的下游基准测试中带来了一致的提升,这些基准测试包括通用知识、代码生成、常识理解、阅读理解和数学。在一项使用8B活跃参数的transformer MoE基础模型进行的消融研究中,MTP在各项基准测试中平均将性能提升了约2.4%(见表2)。这些改进反映了MTP提供更密集监督和增强模型多步推理能力的作用。从系统角度看,MTP引入的额外浮点运算(FLOPs)微乎其微,并且能无缝集成到我们的训练工作流中,在保持高整体效率的同时,提供了显著的推测解码优势【索引5,Better & Faster Large Language Models via Multi-token Prediction,2024】。
MTP与推测解码的协同作用。MTP在Nemotron 3中的一个主要实践优势是其与推测解码的强大协同作用。MTP产生的预测与基础模型高度一致,从而实现了快速、低延迟的生成——这在批量大小为1和长文本生成场景中尤其有益。我们设计了一个轻量级的MTP模块,在一项对8B活跃MoE模型的消融研究中,该模块对前两个预测token的接受率达到了约97%。总的来说,MTP丰富了训练信号,增强了模型预测未来多步的能力,提供了高质量的推测解码预测,并加速了文本生成【索引5,Better & Faster Large Language Models via Multi-token Prediction,2024】。
使用NVFP4格式进行大规模预训练。我们展示了在混合Mamba-MoE架构上使用NVFP4数值格式进行稳定且准确的预训练,训练量高达25T tokens。权重、激活和梯度张量都被量化到NVFP4,这使得在前向传播(fprop)、梯度计算(dgrad)和权重更新(wgrad)中能够使用NVFP4 GEMM(通用矩阵乘法)运算。在GB300上,峰值FP4吞吐量是FP8吞吐量的3倍【索引11,NVIDIA Blackwell Ultra Datasheet,2025】。先前在NVFP4预训练方面的工作【索引10,Pretraining Large Language Models with NVFP4,2025】是通过在BF16 GEMM周围添加量化-反量化函数来模拟NVFP4数值计算。而这项工作使用了原生的NVFP4 GEMM,利用了cuBLAS为Transformer Engine提供的后端支持。
NVFP4的格式与训练技术。NVFP4格式的特点包括:细粒度(16个元素)的微块(micro-block)缩放、采用E4M3格式的块缩放因子、第二级的FP32全局缩放,以及E2M1元素格式。我们利用二维(2D)块缩放进行权重量化,对权重更新(wgrad)的输入使用随机哈达玛变换(RHTs),并对梯度使用随机舍入。为了保持稳定性,我们将网络最后15%的部分保持在高精度。
NVFP4在Nemotron 3特定架构下的应用。Super和Ultra模型采用了Latent-MoE架构和MTP。我们将潜在投影层保持在BF16格式,因为它对单步训练时间的影响很小。由于MTP层位于网络的末端,并且为了保留其能力,我们也将其保持在BF16格式。
针对敏感层的精度保持策略。Nemotron 3系列模型的注意力层与Mamba-2层的比例很小,并且每个注意力层都使用分组查询注意力(GQA),只有2个KV头。为了保持这少数几个注意力层的保真度,我们将QKV和注意力投影层保持在BF16格式。我们观察到,当Mamba的输出投影层被量化到NVFP4时,会出现很高的“刷新为零”(flushes to zero)现象(在Nano上高达40%)。为了防止信息丢失,我们将这些层保持在MXFP8格式。图4显示,结合这两项修改后的方案(绿色曲线)相比将这些层保持在低精度(蓝色曲线),改善了训练和验证损失。
NVFP4与BF16的性能对比。图4还显示了NVFP4和BF16之间的相对损失差距。在Nano模型上,NVFP4与BF16之间的损失相对差异小于1%(绿色曲线)。当在具有8B活跃参数的更大型MoE模型上训练时,这一损失差距减小到小于0.6%(深蓝色曲线)。先前的研究进一步证实了这些发现,即由量化引起的损失差距会随着模型规模的增加而减小【索引1,Scaling Law for Quantization-Aware Training,2025】。图5展示的下游任务评估结果表明,使用BF16和NVFP4训练的A8B模型性能相当。这一现象进一步证实了先前在Mamba-MLP模型上的工作,即微小的损失差距不会导致评估准确性的下降【索引10,Pretraining Large Language Models with NVFP4,2025】。
Nemotron 3的长上下文设计与训练。Nemotron 3模型被设计为支持高达1M token的上下文长度,以实现扩展的多轮代理式推理。旋转位置嵌入(RoPE)是众所周知的将上下文扩展到超出训练长度的障碍。由于Mamba层提供了隐式的位置信息,Nemotron 3模型在注意力层中不使用RoPE,因此在上下文扩展时不会遇到RoPE分布外(out-of-distribution)的问题(Puvvada等人【索引12,SWAN: An Efficient and Scalable Approach for Long-Context Language Modeling,2025】探索了一个Transformer的类似方案)。对于Nemotron 3 Nano,我们在512k序列长度下增加了一个持续预训练(CPT)阶段,并在256k序列长度下进行了监督微调(SFT)。此外,我们在强化学习阶段加入了一个长上下文环境,输入最长可达32k token。这三个阶段都包含了旨在支持长距离检索、多跳推理、多文档信息聚合及相关能力的合成数据。在CPT阶段,我们发现不需要遵循从8k到512k的阶段性增加训练序列长度的策略。此外,我们观察到,Nemotron 3模型采用的MoE混合架构比Nemotron 2 Nano中使用的密集混合架构具有更好的上下文扩展能力。在相同的序列长度(512k)上进行持续预训练时,Nemotron 3 Nano基础模型在1M上下文长度下的RULER【索引6,RULER: What’s the Real Context Size of Your Long-Context Language Models?,2024】得分优于Nemotron 2 Nano 12B基础模型(见表3)。
长上下文有效性评估。为了进一步评估Nemotron 3 Nano在极长上下文中利用信息进行下一词元预测的能力,我们在未见过的序列中测量了不同位置词元的负对数似然(NLL)。较低的NLL表示更好的预测性能。在一个相关的连贯序列中,出现在上下文后方的词元应该更容易预测,因此NLL应该更低。我们在超过一百万词元的代码库级序列上进行了此分析。图6显示了Nemotron 3 Nano基础模型在每个词元索引之前的累积平均NLL。我们观察到NLL随着序列长度的增加而下降,这表明该模型能够有效利用长达测试范围的输入上下文。
| 模型 | 128k | 256k | 512k | 1M |
|---|---|---|---|---|
| Nemotron-Nano-12B-v2-Base | 85.13 | 79.85 | 75.12 | 23.43 |
| Nemotron-3-Nano-30B-A3B-Base | 74.48 | 71.67 | 66.02 | 54.19 |
多环境RL的训练策略。Nemotron 3模型旨在作为各种代理式AI应用的基础。为了让Nemotron 3掌握在如此广泛的任务中取得成功所需的能力,我们创建了一系列多样化的强化学习(RL)环境,涵盖了数学和科学推理、竞赛编程、指令遵循、软件工程、搜索、聊天、通用代理工具使用、长上下文等。与我们之前的模型为不同任务设置不同训练阶段的做法不同,我们对Nemotron 3模型在所有这些任务上进行同步训练。我们发现,这种同步训练比之前分阶段的方法【索引8,NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model,2025】更稳定,更不容易出现奖励 hacking(利用奖励函数漏洞),并且总体效果更好,分阶段方法常常导致某些能力的退化【索引3,DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention,2025】。多环境RL的效用可以在图7中看到,在Nemotron 3 Nano的RL训练过程中,各种代理和推理基准的性能都在稳步提升。
大规模RL的系统设计与算法。在异构且复杂的环境中进行大规模RL,需要高效的系统设计和稳定的学习算法。Nemotron 3模型非常适合这种场景,因为其高推理吞吐量在进行大规模 rollout 生成时,相比其他开源模型具有显著优势。为了进一步提高采样效率,我们采用了一种将训练与推理解耦的异步RL架构,并利用多Token预测来加速 rollout 生成。为了保证训练的稳定性,我们使用了带有掩码重要性采样的GRPO算法【索引13,DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models,2024】,以解决训练策略和 rollout 策略之间的差异问题。
开源后训练软件栈。我们整个后训练软件栈都已在Apache 2.0许可下开源。NeMo-RL 1实现了可扩展的RL训练,而NeMo-Gym 2则提供了一系列RL环境。
推理预算控制机制。与Nemotron 2 Nano【索引8,NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model,2025】类似,Nemotron 3模型被训练为支持推理时预算控制。用户可以指定一个在思考轨迹中使用的最大token数量的预算,当模型达到该预算时,可以在序列后附加</think> token,让模型继续生成。模型将基于部分的思考轨迹生成回应。图8展示了Nemotron 3 Nano通过改变token预算所呈现的准确性-效率权衡曲线,这为用户在AI应用中提供了精细化的控制。
本文没有提供一个集中的实验环境配置章节,相关信息散布在各个部分。以下是根据文内信息整理的摘要:
模型:
数据集与基准:
硬件配置:
软件配置:
Nemotron 3模型及其关键技术在多个维度上展现了卓越的性能,实验结果分布在论文的第二部分。
架构性能(吞吐量与准确性):
LatentMoE有效性:
多Token预测(MTP)的影响:
NVFP4训练的性能:
长上下文能力:
多环境强化学习的效果:
推理预算控制的权衡:
本文介绍了NVIDIA Nemotron 3模型家族——Nano、Super和Ultra。Nemotron 3是目前最高效的开放模型系列,为构建高精度的代理式AI应用提供了领先的准确性。
核心技术总结:
开放与未来工作:
* Nemotron 3模型将是开放和透明的。NVIDIA将发布模型权重、预训练和后训练软件、训练方案以及大部分训练数据。
* Nemotron 3 Nano已随本白皮书一同发布。Super和Ultra模型将在未来几个月内陆续发布。