NVIDIA Nemotron 3: Efficient and Open Intelligence

作者/机构: NVIDIA

A1 主要贡献

本文介绍了NVIDIA Nemotron 3模型家族，这是一个专为代理式AI应用设计的高效、开放且领先准确度的模型系列。

核心问题与研究目标：当前构建和扩展复杂多智能体环境面临着模型推理效率和准确性的双重挑战。此外，处理长代码片段、大量对话历史和大型文档等长上下文任务也对模型能力提出了更高要求。Nemotron 3旨在通过创新的架构和训练技术，突破现有模型的准确性-推理吞吐量边界，同时支持百万级别的长上下文处理，并赋予模型强大的推理、多步工具使用和可控的推理预算能力。

创新点与主要贡献：
1. 混合Mamba-Transformer MoE架构：Nemotron 3采用了一种混合专家（MoE）的Mamba-Transformer架构。该架构主要由Mamba-2层和MoE层交错构成，并辅以少量自注意力层（如图1所示）。这种设计旨在最大化推理效率，尤其是在推理工作负载下，相比同等规模的Transformer MoE模型，其吞吐量更高，上下文扩展能力更强（如图2所示）。

图1 | Nemotron 3模型（例如，Nemotron Nano 3）利用混合Mamba-Transformer MoE架构，主要由交错的Mamba-2和MoE层组成，并包含少量自注意力层。

超长上下文支持：模型家族支持高达1M token的上下文长度，这对于需要处理长代码、对话历史或用于RAG流程的大量文档等任务至关重要。
先进的训练与后训练技术：
- 多环境强化学习（RL）：模型通过在包括编码、数学、工具使用等多种环境中进行强化学习后训练，获得了卓越的准确性。
- 推理时推理预算控制：支持在推理时对“思考”过程的token数量进行控制，允许用户在准确性和效率之间进行权衡。
- NVFP4训练与LatentMoE：Super和Ultra模型采用了NVFP4格式进行训练，以提高效率。同时，它们利用了一种名为LatentMoE的新方法，在不牺牲推理吞吐量或延迟的情况下提高模型质量。
- 多Token预测（MTP）：Super和Ultra模型中集成了MTP层，以加速长文本生成。
开放与透明：NVIDIA承诺将开放发布所有模型权重、超过10万亿token的数据集以及训练方案，推动社区发展。

图2 | Nemotron 3模型使用的混合Mamba-Transformer MoE架构在领先的推理基准和超长上下文任务上可以实现最先进的准确性，同时比同等规模的Transformer MoE提供更高的吞吐量。详情请参阅Nemotron Nano 3技术报告。

A2 方法细节

2.1 混合MoE

Nemotron 3模型的混合架构设计。Nemotron 3系列模型采用了混合Mamba-Transformer MoE架构。选择该架构的核心考量是推理效率，特别是针对推理工作负载，同时它在准确性上优于或持平于标准Transformer模型【索引14，An Empirical Study of Mamba-based Language Models，2024】、【索引9，Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models，2025】、【索引8，NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model，2025】。具体而言，Nemotron 3模型并非将混合专家（MoE）层与计算成本高昂的自注意力层交错排列——后者在生成过程中需要处理线性增长的KV缓存——而是主要将MoE层与计算成本更低的Mamba-2层交错排列【索引2，Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality，2024】，Mamba-2层在生成过程中仅需存储一个恒定的状态。Nemotron 3模型中只包含了极少数的注意力层。例如，Nemotron Nano 3的层模式如图1所示。

高推理吞吐量与长上下文准确性。通过最小化昂贵的自注意力层，Nemotron 3模型在常见的推理工作负载（例如，8k输入序列长度/16k输出序列长度）下，能够实现比同等规模的Transformer MoE更高的推理吞吐量。例如，Nemotron 3 Nano 30B-A3B的吞吐量比Qwen3-30B-A3B高3.3倍（见图2），并且在更长序列下加速效果更明显。尽管如此，这种混合架构仍能实现最先进的准确性，即便是在长上下文查找任务上（例如，在1M token输入序列上的RULER测试，见图2）。

架构的平衡组合。总体而言，Nemotron 3架构利用了混合专家层、自注意力层和Mamba-2层的平衡组合。其中，混合专家层允许稀疏参数扩展，从而在给定的计算预算下带来更高的准确性；自注意力层能够实现高保真的“全体到全体”（all-to-all）信息路由；而Mamba-2层则以固定的推理时计算和内存开销实现了序列建模。

2.2 LatentMoE：面向硬件的专家设计以提升每字节准确率

MoE层在不同部署场景下的性能瓶颈。Transformer模型通常部署在两种不同的环境中：一是优先考虑响应时间的延迟导向部署，二是最大化token处理能力的吞吐量导向部署。混合专家（MoE）层在这两种场景下面临着根本不同的性能瓶颈。在延迟导向的部署中，模型每次处理几十到几百个token以最小化端到端延迟。在这种情况下，MoE的计算受限于内存带宽：从内存中读取专家权重占据了主要成本，远超实际计算时间。每个专家矩阵的大小为$H \times C$，其中$H$是模型的隐藏维度，$C$是专家前馈网络（FFN）的中间维度，因此降低内存带宽成本需要减小$H$或$C$。在吞吐量导向的部署中，模型每次迭代处理数千个token以最大化吞吐量。在这种情况下，将token分派给专家并聚合结果所需的“全体到全体”通信成为主要瓶颈。通信量与top-$k$活跃专家的数量$k$和隐藏维度$H$成线性关系，但与专家FFN的中间维度$C$无关。同时，FFN层的表达能力主要由有效的非线性预算控制，该预算大致与$k \times C$成正比。

图3b | LatentMoE架构。在LatentMoE中，token从模型隐藏维度H投影到一个更小的潜在维度ℓ，用于专家路由和计算，这将路由参数负载和全体到全体通信流量减少了H/ℓ倍（通常约为4倍）。我们利用这种效率，将专家总数和每个token的top-k活跃专家数都增加了相同的H/ℓ倍，从而在保持总体推理成本大致不变的情况下，提高了每字节的准确性。

LatentMoE的设计思想。我们的目标是在不影响推理吞吐量或延迟的情况下提高模型质量。基于上述洞见，我们采用了一个特定的设计选择。为了提高每字节的准确性，我们缩小了被路由的专家输入维度$H$，以减少通信和内存成本，并将节省下来的容量重新投入到增加非线性预算和专家多样性中，具体方法是同时扩大专家总数$E$和每个token的top-$k$活跃专家数。LatentMoE是一种实现此策略的新型架构。

LatentMoE架构详解。LatentMoE架构如图3b所示。每个token嵌入首先从原始隐藏维度$H$投影到一个维度更小的潜在表示$ℓ < H$，然后被路由到一个扩展的专家集合中，这些专家完全在这个潜在空间中操作，最后再投影回原始的隐藏维度$H$。通过将被路由的专家计算和“全体到全体”通信转移到潜在空间，每个专家的权重加载和通信负载都比标准MoE减少了$H/ℓ$倍。我们利用这些参数和带宽节省，将专家总数从$E$增加到$E' = E \cdot H/ℓ$，并将每个token的top-$k$活跃专家数从$k$增加到$k' = k \cdot H/ℓ$。维度的减少抵消了专家数量和活跃专家数量的增加，这使得在相似的计算和通信预算下能够实现更高的模型质量。为了保持质量，所有非路由计算，包括MoE的路由门（gating network）、共享专家计算以及非专家层，都保留在原始的隐藏维度$H$中，因为它们对目标瓶颈的贡献不显著。

LatentMoE的性能验证。表1比较了标准MoE和LatentMoE在下游任务上的性能。为了提供全面的评估，我们报告了聚合分数：“Code”是HumanEval、HumanEval+、MBPP和MBPP+的平均分；“Math”是GSM8K CoT和MATH-500的平均分；“Commonsense Understanding”是RACE、ARC-Challenge、HellaSwag和Winogrande的平均分。两个模型都具有80亿活跃参数和730亿总参数，并使用相同的超参数训练了1万亿个token。具体来说，标准MoE模型使用的隐藏维度大小为$H = 4096$，共有128个专家，6个活跃专家；而LatentMoE模型使用的潜在维度为$ℓ = 1024$，共有512个专家，22个活跃专家。如结果所示，LatentMoE在所有评估任务上都持续优于标准MoE基线。

模型	MMLU-Pro	MMLU	Code	Math	Commonsense Understanding
Standard MoE (8.09B active / 72.6B total)	48.30	70.10	51.95	78.32	81.73
LatentMoE (8.02B active / 72.8B total)	52.87	72.11	55.14	80.19	82.10

表1 | 标准MoE和LatentMoE在下游任务准确性上的比较。LatentMoE架构在所有评估任务中始终优于标准MoE基线。

2.3 多Token预测（MTP）

MTP对模型准确性和推理效率的提升。多Token预测（MTP）已成为一种非常有效的技术，用于提升大型语言模型的准确性和推理效率。先前的工作——包括DeepSeekV3【索引4，DeepSeek-V3 Technical Report，2025】和最初的MTP公式【索引5，Better & Faster Large Language Models via Multi-token Prediction，2024】——表明，预测多个未来token能提供更丰富的训练信号，并促使模型提前规划几步。这些辅助预测也自然地成为推测解码（speculative decoding）【索引7，Fast Inference from Transformers via Speculative Decoding，2023】的草稿token，从而在不需要独立草稿模型的情况下实现显著的端到端加速。

MTP在Nemotron 3中的应用效果。在Nemotron 3中，集成MTP在验证损失以及广泛的下游基准测试中带来了一致的提升，这些基准测试包括通用知识、代码生成、常识理解、阅读理解和数学。在一项使用8B活跃参数的transformer MoE基础模型进行的消融研究中，MTP在各项基准测试中平均将性能提升了约2.4%（见表2）。这些改进反映了MTP提供更密集监督和增强模型多步推理能力的作用。从系统角度看，MTP引入的额外浮点运算（FLOPs）微乎其微，并且能无缝集成到我们的训练工作流中，在保持高整体效率的同时，提供了显著的推测解码优势【索引5，Better & Faster Large Language Models via Multi-token Prediction，2024】。

表2 | 在一个训练了1T tokens的简单8B活跃参数transformer MoE基础模型上，使用和不使用MTP的准确性得分。我们观察到在跨越不同类别的多个任务上准确性都有所提升。

MTP与推测解码的协同作用。MTP在Nemotron 3中的一个主要实践优势是其与推测解码的强大协同作用。MTP产生的预测与基础模型高度一致，从而实现了快速、低延迟的生成——这在批量大小为1和长文本生成场景中尤其有益。我们设计了一个轻量级的MTP模块，在一项对8B活跃MoE模型的消融研究中，该模块对前两个预测token的接受率达到了约97%。总的来说，MTP丰富了训练信号，增强了模型预测未来多步的能力，提供了高质量的推测解码预测，并加速了文本生成【索引5，Better & Faster Large Language Models via Multi-token Prediction，2024】。

2.4 NVFP4训练

使用NVFP4格式进行大规模预训练。我们展示了在混合Mamba-MoE架构上使用NVFP4数值格式进行稳定且准确的预训练，训练量高达25T tokens。权重、激活和梯度张量都被量化到NVFP4，这使得在前向传播（fprop）、梯度计算（dgrad）和权重更新（wgrad）中能够使用NVFP4 GEMM（通用矩阵乘法）运算。在GB300上，峰值FP4吞吐量是FP8吞吐量的3倍【索引11，NVIDIA Blackwell Ultra Datasheet，2025】。先前在NVFP4预训练方面的工作【索引10，Pretraining Large Language Models with NVFP4，2025】是通过在BF16 GEMM周围添加量化-反量化函数来模拟NVFP4数值计算。而这项工作使用了原生的NVFP4 GEMM，利用了cuBLAS为Transformer Engine提供的后端支持。

NVFP4的格式与训练技术。NVFP4格式的特点包括：细粒度（16个元素）的微块（micro-block）缩放、采用E4M3格式的块缩放因子、第二级的FP32全局缩放，以及E2M1元素格式。我们利用二维（2D）块缩放进行权重量化，对权重更新（wgrad）的输入使用随机哈达玛变换（RHTs），并对梯度使用随机舍入。为了保持稳定性，我们将网络最后15%的部分保持在高精度。

NVFP4在Nemotron 3特定架构下的应用。Super和Ultra模型采用了Latent-MoE架构和MTP。我们将潜在投影层保持在BF16格式，因为它对单步训练时间的影响很小。由于MTP层位于网络的末端，并且为了保留其能力，我们也将其保持在BF16格式。

针对敏感层的精度保持策略。Nemotron 3系列模型的注意力层与Mamba-2层的比例很小，并且每个注意力层都使用分组查询注意力（GQA），只有2个KV头。为了保持这少数几个注意力层的保真度，我们将QKV和注意力投影层保持在BF16格式。我们观察到，当Mamba的输出投影层被量化到NVFP4时，会出现很高的“刷新为零”（flushes to zero）现象（在Nano上高达40%）。为了防止信息丢失，我们将这些层保持在MXFP8格式。图4显示，结合这两项修改后的方案（绿色曲线）相比将这些层保持在低精度（蓝色曲线），改善了训练和验证损失。

图4 | 使用NVFP4和BF16训练的模型在训练损失（左）和验证损失（右）上的相对差异，展示了两种模型规模：Nemotron 3 Nano (A3B) 和更大的MoE模型 (A8B)。随着模型规模的增加（A3B → A8B），损失差距减小。在Nemotron 3 Nano上的方案消融实验从500B tokens的Nemotron 3 NVFP4检查点开始，然后将敏感层（Mamba输出、QKV和注意力投影）量化为NVFP4，突显了将这些层保持在高精度的重要性。

NVFP4与BF16的性能对比。图4还显示了NVFP4和BF16之间的相对损失差距。在Nano模型上，NVFP4与BF16之间的损失相对差异小于1%（绿色曲线）。当在具有8B活跃参数的更大型MoE模型上训练时，这一损失差距减小到小于0.6%（深蓝色曲线）。先前的研究进一步证实了这些发现，即由量化引起的损失差距会随着模型规模的增加而减小【索引1，Scaling Law for Quantization-Aware Training，2025】。图5展示的下游任务评估结果表明，使用BF16和NVFP4训练的A8B模型性能相当。这一现象进一步证实了先前在Mamba-MLP模型上的工作，即微小的损失差距不会导致评估准确性的下降【索引10，Pretraining Large Language Models with NVFP4，2025】。

图5 | 在8B活跃MoE模型上进行下游任务评估，训练至1T tokens。NVFP4的准确性在整个训练过程中紧密跟随BF16的轨迹。评估在BF16格式下进行。

2.5 长上下文

Nemotron 3的长上下文设计与训练。Nemotron 3模型被设计为支持高达1M token的上下文长度，以实现扩展的多轮代理式推理。旋转位置嵌入（RoPE）是众所周知的将上下文扩展到超出训练长度的障碍。由于Mamba层提供了隐式的位置信息，Nemotron 3模型在注意力层中不使用RoPE，因此在上下文扩展时不会遇到RoPE分布外（out-of-distribution）的问题（Puvvada等人【索引12，SWAN: An Efficient and Scalable Approach for Long-Context Language Modeling，2025】探索了一个Transformer的类似方案）。对于Nemotron 3 Nano，我们在512k序列长度下增加了一个持续预训练（CPT）阶段，并在256k序列长度下进行了监督微调（SFT）。此外，我们在强化学习阶段加入了一个长上下文环境，输入最长可达32k token。这三个阶段都包含了旨在支持长距离检索、多跳推理、多文档信息聚合及相关能力的合成数据。在CPT阶段，我们发现不需要遵循从8k到512k的阶段性增加训练序列长度的策略。此外，我们观察到，Nemotron 3模型采用的MoE混合架构比Nemotron 2 Nano中使用的密集混合架构具有更好的上下文扩展能力。在相同的序列长度（512k）上进行持续预训练时，Nemotron 3 Nano基础模型在1M上下文长度下的RULER【索引6，RULER: What’s the Real Context Size of Your Long-Context Language Models?，2024】得分优于Nemotron 2 Nano 12B基础模型（见表3）。

长上下文有效性评估。为了进一步评估Nemotron 3 Nano在极长上下文中利用信息进行下一词元预测的能力，我们在未见过的序列中测量了不同位置词元的负对数似然（NLL）。较低的NLL表示更好的预测性能。在一个相关的连贯序列中，出现在上下文后方的词元应该更容易预测，因此NLL应该更低。我们在超过一百万词元的代码库级序列上进行了此分析。图6显示了Nemotron 3 Nano基础模型在每个词元索引之前的累积平均NLL。我们观察到NLL随着序列长度的增加而下降，这表明该模型能够有效利用长达测试范围的输入上下文。

模型	128k	256k	512k	1M
Nemotron-Nano-12B-v2-Base	85.13	79.85	75.12	23.43
Nemotron-3-Nano-30B-A3B-Base	74.48	71.67	66.02	54.19

表3 | Nemotron-Nano-12B-v2-Base（密集混合模型）和Nemotron-3-Nano30B-A3B-Base（MoE混合模型）在不同输入上下文长度下的RULER得分。我们观察到MoE混合模型在长度外推方面比密集混合模型更鲁棒。Nemotron-Nano-12B-v2-Base模型在512k和1M之间表现出突然的性能下降，而Nemotron-3-Nano-30B-A3B-Base则表现出平缓的性能衰减。两个模型都训练到了512k序列长度。

图6 | 代码数据中累积平均负对数似然（NLL）随词元位置的变化。Nemotron 3 Nano基础模型在代码数据中显示出在高达1M tokens的范围内预测能力有所提升。

2.6 多环境强化学习后训练

多环境RL的训练策略。Nemotron 3模型旨在作为各种代理式AI应用的基础。为了让Nemotron 3掌握在如此广泛的任务中取得成功所需的能力，我们创建了一系列多样化的强化学习（RL）环境，涵盖了数学和科学推理、竞赛编程、指令遵循、软件工程、搜索、聊天、通用代理工具使用、长上下文等。与我们之前的模型为不同任务设置不同训练阶段的做法不同，我们对Nemotron 3模型在所有这些任务上进行同步训练。我们发现，这种同步训练比之前分阶段的方法【索引8，NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model，2025】更稳定，更不容易出现奖励 hacking（利用奖励函数漏洞），并且总体效果更好，分阶段方法常常导致某些能力的退化【索引3，DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention，2025】。多环境RL的效用可以在图7中看到，在Nemotron 3 Nano的RL训练过程中，各种代理和推理基准的性能都在稳步提升。

大规模RL的系统设计与算法。在异构且复杂的环境中进行大规模RL，需要高效的系统设计和稳定的学习算法。Nemotron 3模型非常适合这种场景，因为其高推理吞吐量在进行大规模 rollout 生成时，相比其他开源模型具有显著优势。为了进一步提高采样效率，我们采用了一种将训练与推理解耦的异步RL架构，并利用多Token预测来加速 rollout 生成。为了保证训练的稳定性，我们使用了带有掩码重要性采样的GRPO算法【索引13，DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models，2024】，以解决训练策略和 rollout 策略之间的差异问题。

开源后训练软件栈。我们整个后训练软件栈都已在Apache 2.0许可下开源。NeMo-RL 1实现了可扩展的RL训练，而NeMo-Gym 2则提供了一系列RL环境。

图7 | 多环境RL训练：在单次RL运行中，同时优化对应于多种不同能力的多个不同环境。

2.7 推理时可控的精细化推理预算

推理预算控制机制。与Nemotron 2 Nano【索引8，NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model，2025】类似，Nemotron 3模型被训练为支持推理时预算控制。用户可以指定一个在思考轨迹中使用的最大token数量的预算，当模型达到该预算时，可以在序列后附加</think> token，让模型继续生成。模型将基于部分的思考轨迹生成回应。图8展示了Nemotron 3 Nano通过改变token预算所呈现的准确性-效率权衡曲线，这为用户在AI应用中提供了精细化的控制。

A4 实验环境

本文没有提供一个集中的实验环境配置章节，相关信息散布在各个部分。以下是根据文内信息整理的摘要：

模型：
- Nemotron 3模型家族：Nano、Super、Ultra。
- Nemotron 3 Nano 30B-A3B：在基准测试中使用的具体模型。
- 对比/消融实验模型：
  - Qwen3-30B-A3B，GPT-OSS-20B-A4B。
  - 8B活跃参数/73B总参数的Transformer MoE模型（用于LatentMoE和MTP消融研究）。
  - Nemotron 2 Nano 12B（密集混合架构，用于长上下文对比）。
数据集与基准：
- 预训练数据：超过10万亿个token，具体数据集未列出。
- 评估基准：
  - 聊天/指令遵循：Arena-Hard-v2-Avg, IFBench
  - 数学：AIME25, GSM8K, MATH-500
  - 工具使用：τ²-Bench
  - 代码：SWE-Bench, LCB v6, HumanEval, HumanEval+, MBPP, MBPP+
  - 长上下文：RULER @ 1M
  - 通用知识/常识/推理：MMLU, MMLU-Pro, RACE, ARC-Challenge, HellaSwag, Winogrande, AALCR, GPQA, SciCode, LiveCodeBench
硬件配置：
- 文中提及在GB300平台上，NVFP4的峰值吞吐量是FP8的3倍。其他硬件细节（如CPU、网络）未提供。
软件配置：
- 后训练框架：NeMo-RL (版本1), NeMo-Gym (版本2)。
- 底层库：cuBLAS, Transformer Engine。
- 代码开源：后训练软件栈在Apache 2.0许可下开源。

A4 实验结果

Nemotron 3模型及其关键技术在多个维度上展现了卓越的性能，实验结果分布在论文的第二部分。

架构性能（吞吐量与准确性）：
- 图2显示，Nemotron 3 Nano 30B-A3B在多个推理基准测试（如AIME25数学、IFBench指令遵循）上达到了SOTA准确性。
- 在长上下文任务RULER（1M tokens）上表现出色，准确率达到86.3%。
- 在8k输入/16k输出的推理场景下，其吞吐量是Qwen3-30B-A3B的3.3倍，展示了混合Mamba-Transformer MoE架构的效率优势。
LatentMoE有效性：
- 表1对比了标准MoE和LatentMoE架构（均为8B活跃参数模型）。结果显示，LatentMoE在所有评估任务上均优于标准MoE，例如在MMLU-Pro上得分从48.30%提升至52.87%，在Code任务上从51.95%提升至55.14%。这证明了LatentMoE在不增加推理成本的情况下能有效提升模型质量。
多Token预测（MTP）的影响：
- 表2展示了在一个8B MoE基线模型上添加MTP的效果。MTP在所有测试类别中都带来了性能提升，平均提升约2.4%。例如，在MMLU 5-shot上准确率从70.06%提升至71.26%，在GSM8K上从82.49%提升至84.46%。
NVFP4训练的性能：
- 图4显示，使用NVFP4训练的模型与使用BF16训练的模型相比，训练和验证损失的相对差距很小。对于Nemotron 3 Nano，差距小于1%；对于更大的8B模型，差距小于0.6%。
- 图5进一步表明，在多个下游任务（如MMLU, Math 500, GSM8K等）上，NVFP4训练的模型的准确性轨迹与BF16训练的模型高度一致，验证了NVFP4训练在保持模型质量方面的有效性。
长上下文能力：
- 表3比较了Nemotron 3 Nano（MoE混合）和Nemotron 2 Nano（密集混合）在RULER基准上的表现。在1M上下文长度下，Nemotron 3 Nano的得分（54.19）远高于Nemotron 2 Nano（23.43），表明MoE混合架构具有更强的上下文外推能力。
- 图6通过负对数似然（NLL）分析表明，在长达1M token的代码序列中，Nemotron 3 Nano的NLL随序列长度增加而持续下降，证明模型能够有效利用整个长上下文信息进行预测。
多环境强化学习的效果：
- 图7展示了在RL后训练过程中，模型在多个复杂推理和代理任务（如AALCR, AIME25, MMLU Pro, τ²-Bench）上的性能持续、稳定地提升，验证了多环境同步训练策略的成功。
推理预算控制的权衡：
- 图8展示了通过调整推理时的token预算，可以在准确性和计算效率之间进行精细权衡。例如，在AIME25和MMLU Pro等任务上，随着平均生成token数量的增加，模型准确率显著提升，为用户提供了灵活的部署选项。

A5 结论

本文介绍了NVIDIA Nemotron 3模型家族——Nano、Super和Ultra。Nemotron 3是目前最高效的开放模型系列，为构建高精度的代理式AI应用提供了领先的准确性。

核心技术总结：

架构：采用混合Mamba-Transformer MoE架构，实现了高效率与高准确性的平衡。
功能：支持高达1M token的上下文长度，并通过多环境强化学习获得了强大的推理能力。同时，提供精细化的推理预算控制。
先进技术：Super和Ultra模型通过采用LatentMoE和NVFP4训练进一步提升了性能，并集成了MTP层以实现快速、低延迟的生成。

开放与未来工作：
* Nemotron 3模型将是开放和透明的。NVIDIA将发布模型权重、预训练和后训练软件、训练方案以及大部分训练数据。
* Nemotron 3 Nano已随本白皮书一同发布。Super和Ultra模型将在未来几个月内陆续发布。

引用文献

【索引1】 Mengzhao Chen, Chaoyi Zhang, Jing Liu, Yutao Zeng, Zeyue Xue, Zhiheng Liu, Yunshui Li, Jin Ma, Jie Huang, Xun Zhou, and Ping Luo. Scaling Law for Quantization-Aware Training, 2025. URL https://arxiv.org/abs/2505.14302. (引用段落：2.4)
【索引2】 Tri Dao and Albert Gu. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality, 2024. URL https://arxiv.org/abs/2405.21060. (引用段落：2.1)
【索引3】 DeepSeek-AI. DeepSeek-V3.2-Exp: Boosting Long-Context Efficiency with DeepSeek Sparse Attention, 2025a. (引用段落：2.6)
【索引4】 DeepSeek-AI. DeepSeek-V3 Technical Report, 2025b. URL https://arxiv.org/abs/2412.19437. (引用段落：2.3)
【索引5】 Fabian Gloeckle, Badr Youbi Idrissi, Baptiste Roziere, David Lopez-Paz, and Gabriel Synnaeve. Better & Faster Large Language Models via Multi-token Prediction. In International Conference on Machine Learning, pp. 15706–15734. PMLR, 2024. (引用段落：2.3)
【索引6】 Cheng-Ping Hsieh, Simeng Sun, Samuel Kriman, Shantanu Acharya, Dima Rekesh, Fei Jia, Yang Zhang, and Boris Ginsburg. RULER: What’s the Real Context Size of Your Long-Context Language Models? arXiv preprint arXiv:2404.06654, 2024. (引用段落：2.5)
【索引7】 Yaniv Leviathan, Matan Kalman, and Yossi Matias. Fast Inference from Transformers via Speculative Decoding. In Proceedings of the 40th International Conference on Machine Learning, pp. 19274– 19286, 2023. (引用段落：2.3)
【索引8】 NVIDIA. NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model. arXiv preprint arXiv:2508.14444, 2025a. (引用段落：2.1, 2.6, 2.7)
【索引9】 NVIDIA. Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models, 2025b. URL https://arxiv.org/abs/2504.03624. (引用段落：2.1)
【索引10】 NVIDIA. Pretraining Large Language Models with NVFP4, 2025c. URL https://arxiv.org/abs/ 2509.25149. (引用段落：2.4)
【索引11】 NVIDIA Corporation. NVIDIA Blackwell Ultra Datasheet. NVIDIA Corporation, March 2025. URL https://resources.nvidia.com/en-us-blackwell-architecture/ blackwell-ultra-datasheet?ncid=no-ncid. Accessed: 2025-12-09. (引用段落：2.4)
【索引12】 Krishna C Puvvada, Faisal Ladhak, Santiago Akle Serano, Cheng-Ping Hsieh, Shantanu Acharya, Somshubra Majumdar, Fei Jia, Samuel Kriman, Simeng Sun, Dima Rekesh, and Boris Ginsburg. SWAN: An Efficient and Scalable Approach for Long-Context Language Modeling. In Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, and Violet Peng (eds.), Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pp. 2424–2438, Suzhou, China, November 2025. Association for Computational Linguistics. ISBN 979-8-89176-332-6. doi: 10.18653/v1/2025.emnlp-main.123. URL https://aclanthology.org/2025.emnlp-main.123/. (引用段落：2.5)
【索引13】 Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y. K. Li, Y. Wu, and Daya Guo. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, 2024. URL https://arxiv.org/abs/2402.03300. (引用段落：2.6)
【索引14】 Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, and Bryan Catanzaro. An Empirical Study of Mamba-based Language Models, 2024. URL https://arxiv.org/abs/2406.07887. (引用段落：2.1)