Distributed Implementation of Muon and Emerging Optimizers in Megatron-Core

傅德禹, NVIDIA GPU 加速计算专家团队 | Al Open Day | Nov 07, 2025

议程

Page 2
Page 2

新兴优化器的涌现

为何是现在?

基于预处理(Pre-Condition)的优化器

近似二阶方法

Page 4
Page 4

对 Shampoo 的推广

Page 5
Page 5

对 Muon 的浓厚兴趣

为何选择 Muon?

实现与 Mcore 集成

Page 7
Page 7

独立的 GitHub 代码库

地址: https://github.com/NVIDIA-NeMo/Emerging-Optimizers

Muon 算法

Page 9
Page 9

Muon 优化

优化 NS (Newton-Schulz) 步骤

Page 10
Page 10

Megatron-Core 集成

易用性

逐层分布式优化器

Page 12
Page 12

Mcore 分布式优化器 (ZeRO-1)

Page 13
Page 13

规模化挑战

Muon 无法与 Mcore 分布式优化器协同工作

下图展示了梯度缓冲区分片(全局、本地、参数)的情况,其中每个 DP rank 只持有部分参数的梯度。

Page 14
Page 14

我们的解决方案

逐层分解 (Layer wise decomposition)

下图展示了两种不同的分发策略。

Page 15
Page 15

替代算法

由 Kimi 使用

Page 16
Page 16

实现与优化

再次强调,优先考虑易用性

部署与结果

通过 MLM 参数更改进行简单部署

DS-v2 代理模型,GPU == DP SIZE == 64

内存使用单位为 GB,时间单位为 ms

Page 20
Page 20

* 仅供技术讨论和参考。性能可能因不同产品组合而异。

性能结果

收敛性

超参数(HP)建议

Qwen-30B 收敛结果

与 AdamW 相比,Muon 最终获得了更好的损失,并且尖峰更少。

Page 23
Page 23

结论与未来路线图

结论

未来路线图