UltraEP: Unleash MoE Training and Inference on Rack-Scale Nodes with Near-Optimal Load Balancing

发表时间: 2026-06 · arXiv:2606.04101

文章标题:UltraEP: 在机架规模节点上通过近乎最优的负载均衡释放MoE训练和推理的潜力
作者/机构:Xinming Wei, Chao Jin, Tuo Dai, Yinmin Zhong, Shan Yu, Chengxu Yang, Bingyang Wu, Zili Zhang, Jing Mai, Qianchao Zhu, Zhouyang Li, Yuliang Liu, Guojie Luo (北京大学计算机学院, RedNote, 上海人工智能实验室, 独立研究员)

A1 主要贡献

大规模专家并行(Expert Parallelism, EP)已成为训练和服务前沿混合专家(MoE)模型的关键,但它也加剧了设备级的专家负载不均衡,导致计算掉队、令牌(token)all-to-all通信瓶颈和激活值内存尖峰。现有均衡器基于历史负载周期性地重新分配专家,但这对于负载模式非平稳的生产部署环境而言并不可靠。

本文介绍了UltraEP,这是首个用于机架规模节点(Rack-Scale Nodes, RSNs)上大规模EP的MoE训练和服务的精确负载、实时均衡器。与先前基于历史预测的解决方案不同,UltraEP在每次门控(gating)之后,根据精确的实时负载信息,在每个微批次(microbatch)和每个层级上进行重新平衡。


图1. UltraEP在负载保真度、决策时机和平衡频率方面与先前解决方案的不同之处。

这一实时平衡策略之所以可行,得益于机架规模节点(RSNs)的出现。RSNs通过将高带宽的扩展(scale-up)链路扩展到整个机架的数十个GPU,使得整个EP组可以保持在单个高带宽域内,从而使关键路径上的平衡在物理上成为可能。然而,仅有RSNs是不够的,还需要解决控制平面和数据平面的挑战。


图2. 与标准RDMA集群相比,机架规模节点内扩展的scale-up域示意图。

为应对这些挑战,UltraEP引入了两项关键创新:
1. 控制平面:配额驱动的规划器 (Quota-driven planner)。该规划器联合优化专家复制和令牌重路由,直接求解每个专家实例最终应承载的令牌负载配额。它通过高效的基于阈值的二分搜索来直接优化重路由后的负载,避免了传统方法中规划与路由分离导致的次优解。
2. 数据平面:RSN原生的通信机制。针对实时复制产生的动态、不规则的专家状态传输,UltraEP设计了专门的通信方案。它通过设备端的持久化瓦片流 (persistent tile streaming) 来饱和带宽,并通过基于中继的块流 (chunk-streaming relay) 树来缓解热门专家的扇出(fan-out)瓶颈。

UltraEP被设计为生产部署友好型系统,与常见的张量、流水线和数据并行兼容,并作为一个独立的运行时库,可以无缝集成到现有的训练和推理框架中。

本文的主要贡献如下:
* 我们对大规模MoE训练和推理预填充(prefill)中的非平稳专家负载不均衡进行了定性分析(§ 3)。
* 我们设计了UltraEP,这是首个在RSNs上为大规模EP MoE部署设计的实时、精确负载均衡器(§ 4)。
* 我们构建了用于关键路径平衡的配额驱动规划(§ 5)和RSN原生的专家状态通信机制(§ 6)。
* 我们验证了UltraEP近乎最优的平衡质量、接近理想的吞吐量和生产级别的可扩展性(§ 8)。

A3 背景知识与关键观察

2. 背景知识

机架规模节点 (Rack-Scale Node, RSN)

如上文图2所示,一个机架规模节点(RSN)将扩展(scale-up)域从单个4/8-GPU服务器扩展到整个机架,通常涵盖64个以上的GPU【2, 39, 42, 73】。一个RSN仍由多个服务器组成,但跨服务器的GPU通过机架范围的扩展(scale-up)网络结构【29, 40, 58】直接连接。与扩展(scale-out)网络相比,scale-up提供更高的单GPU带宽(数百GB/s至~TB/s)和类加载/存储的内存语义,而scale-out使用网络消息传递,每个NIC通常只提供几十GB/s的带宽。对于MoE模型,一个EP组通常可以容纳在一个RSN内,使专家分派保持在快速的scale-up网络上,而不是较慢的scale-out网络上。


图3. 专家并行(EP)下的MoE前向传播示意:4个专家,EP=2,top-k=2。

分布式MoE训练与推理

3. 专家负载分析

我们观察到,在服务和训练中,专家负载分布都表现出高度倾斜、异构和动态的特性。

服务预填充 (Serving Prefill)

在服务中,预填充阶段是专家负载不均衡的主要来源。如图4所示,专家流行度在不同语义(如科学、编码和混合领域)的流量之间急剧变化。即使在单个领域内,热门专家也会在不同批次间漂移。这种工作负载既高度倾斜又非平稳。


图4. 在Qwen3-235B(128专家中激活top-8,EP=64)上采样的预填充阶段专家负载分布。负载在前向步骤、数据域和层之间变化。不均衡比率表示最大单专家负载与平均值的比值。

训练 (Training)

训练展现了不同但同样具有挑战性的模式。如图5所示,在训练早期,由于路由器特化尚未稳定,专家负载高度不稳定。随着训练进行,平均分布变得更平滑,但强烈的动态性依然存在。即使是DeepSeek风格的路由补偿也无法消除振荡。在更细的粒度上,由采样随机性引起的微批次间抖动也依然可见。


图5. 在GLM4.5-106B-A12B(使用GShard风格辅助损失)和DeepSeek-V3(使用DeepSeek风格辅助损失)上采样的训练初期和后期专家负载分布(EP=64)。

基于历史的均衡方法的局限性

我们研究了EPLB【12】在大规模EP下缓解rank级不均衡的效果。如图6所示,EPLB依赖历史负载统计,无法追踪预填充或训练中快速、非平稳的负载变化。当实际负载偏离用于推导专家布局的统计数据时,EPLB甚至可能加剧不均衡,产生新的尖峰和掉队者。这促使我们设计一种能够响应瞬时负载而非基于过时测量的实时方案。


图6. 使用EPLB前后EP=64下的Rank级不均衡。EPLB的重新平衡间隔在预填充为50批次,训练为3个全局批次。左图为混合数据预填充,右图为第3510个全局批次的训练。

A2 方法细节

4. UltraEP 系统设计

UltraEP旨在通过精确负载实现实时专家负载均衡。每个EP组位于一个RSN的scale-up域内,而跨机架的scale-out扩展使用PP和DP。本节介绍UltraEP的专家布局与内存管理、执行流水线、优化问题公式化,并提炼出实际挑战。

4.1 专家布局与内存管理

表1. UltraEP中使用的符号。


图7. 专家布局和缓冲区管理(示例:8个专家,单层,EP=4,n_slot=1)。冗余专家槽在各层之间复用权重和梯度缓冲区,没有优化器状态。主专家保留全套缓冲区。

4.2 计算-通信流水线


图8. 启用UltraEP的MoE前向传播过程。


图9. 启用UltraEP的MoE后向传播过程。

4.3 问题公式化

我们为每个EP组独立求解一个在线优化问题。相关符号见表1。

4.4 实际挑战

5. 配额驱动的规划

UltraEP将平衡规划视为一个由精确运行时负载驱动的联合复制-重路由问题。我们不先决定副本再用单独的重路由策略修补,而是直接求解最终的每个实例的负载配额 $q$。

5.1 复制

5.2 重路由

5.3 GPU原生求解

UltraEP在设备上完全实现了配额求解,避免了关键路径上的CPU同步和设备-主机元数据移动。该算法利用warp级并行和数据局部性,通过一个协作线程块在共享内存中暂存负载矩阵和放置状态,跨warp评估多个阈值探针,并使用warp级归约来寻找符合约束的目标。整个求解过程从一个CPU侧的组合搜索转变为一个紧凑的GPU常驻可行性问题。

算法1:复制与重路由联合求解

6. RSN原生的平衡通信

UltraEP的平衡流量是在RSN scale-up网络上的一种运行时自适应的稀疏传输图。我们优化了两个瓶颈:非负载开销和热门专家的扇出。

6.1 用于数据传输的持久化瓦片流 (Persistent Tile Streaming)

6.2 用于热点扇出的块流中继 (Chunk Streaming Relay)


图10. 热门专家扇出的中继方案。假设rank 0上的一个专家需要多播到rank 1-9,选择rank 2, 5, 8作为中继。图中省略了叶子节点和更细粒度的瓦片,展示了每个rank上收发通道随时间的状态。

A7 补充细节

7. 实现

A4 实验环境

表2. RSN配置。

表3. 评估的模型和并行设置。

A4 实验结果

端到端性能


图11. 端到端训练性能:在三个模型上20个训练迭代中的吞吐量变化。


图12. 端到端预填充性能:在两个数据域和两个模型上的RPS-平均TTFT权衡。

延迟分解

如图13所示,我们分解了Qwen3-235B-A22B训练中每MoE层的延迟。与理想情况相比,UltraEP引入的额外开销极小(前向0.33ms,占总延迟的1.8%),表明其关键路径开销已最小化。MoE计算延迟已接近理想值,证实了rank级负载不均衡基本被消除。与理想情况的主要差距在于令牌all-to-all通信,这是由真实MoE训练中不均匀的令牌路由造成的,而非平衡开销。


图13. Qwen3-235B-A22B训练期间前向和后向传播的延迟分解。

激活内存占用

如图14所示,不均衡会导致接收端最热的rank上激活内存占用激增(训练中峰值高出理想情况2倍,服务中高出11倍)。UltraEP通过平滑接收端热点,显著降低了MoE激活内存峰值,使其接近理想情况,从而降低了内存溢出风险。


图14. 峰值GPU内存分解。

消融研究


图15. EPLB+与UltraEP平衡质量的深入比较。上图:所有训练和预填充评估中的不均衡度分布;下图:在各种MoE、EP和冗余设置下的模拟平衡效果。

表4. 图15中模拟的平均平衡指标,包括求解时间、消耗的冗余槽、最大副本扇出和流量比率。


图16. 在Qwen3-235B和EP64上,不同不均衡水平下专家权重分发的通信延迟比较。

生产规模MoE训练

如图17所示,在2560个GPU上训练RefMoE-288B时,尽管存在大规模硬件和网络的可变性,UltraEP仍能维持超过92%的理想吞吐量,相比无平衡情况平均提升9.6%,同时保持了训练的收敛性。


图17. 2560-GPU RefMoE-288B训练的吞吐量和损失曲线。

A5 结论

UltraEP为在RSN上进行的大规模EP MoE训练和服务预填充实现了精确负载的专家平衡。通过将基于配额的规划与RSN原生的专家状态通信相结合,UltraEP能够响应已实现的路由并执行实时平衡,同时保持关键路径开销很小。我们的评估验证了其接近理想的吞吐量、近乎最优的平衡质量和生产级别的可扩展性。由于UltraEP同时覆盖了训练和推理,其抽象可以自然地扩展到交替执行这两个过程的强化学习(RL)流水线中。

方法细节中的引用汇总

以下是论文方法细节章节(Section 4, 5, 6, 7)中引用的参考文献及其上下文描述: