发表时间: 2026-06 · arXiv:2606.04101
文章标题:UltraEP: 在机架规模节点上通过近乎最优的负载均衡释放MoE训练和推理的潜力
作者/机构:Xinming Wei, Chao Jin, Tuo Dai, Yinmin Zhong, Shan Yu, Chengxu Yang, Bingyang Wu, Zili Zhang, Jing Mai, Qianchao Zhu, Zhouyang Li, Yuliang Liu, Guojie Luo (北京大学计算机学院, RedNote, 上海人工智能实验室, 独立研究员)
大规模专家并行(Expert Parallelism, EP)已成为训练和服务前沿混合专家(MoE)模型的关键,但它也加剧了设备级的专家负载不均衡,导致计算掉队、令牌(token)all-to-all通信瓶颈和激活值内存尖峰。现有均衡器基于历史负载周期性地重新分配专家,但这对于负载模式非平稳的生产部署环境而言并不可靠。
本文介绍了UltraEP,这是首个用于机架规模节点(Rack-Scale Nodes, RSNs)上大规模EP的MoE训练和服务的精确负载、实时均衡器。与先前基于历史预测的解决方案不同,UltraEP在每次门控(gating)之后,根据精确的实时负载信息,在每个微批次(microbatch)和每个层级上进行重新平衡。
图1. UltraEP在负载保真度、决策时机和平衡频率方面与先前解决方案的不同之处。
这一实时平衡策略之所以可行,得益于机架规模节点(RSNs)的出现。RSNs通过将高带宽的扩展(scale-up)链路扩展到整个机架的数十个GPU,使得整个EP组可以保持在单个高带宽域内,从而使关键路径上的平衡在物理上成为可能。然而,仅有RSNs是不够的,还需要解决控制平面和数据平面的挑战。
图2. 与标准RDMA集群相比,机架规模节点内扩展的scale-up域示意图。
为应对这些挑战,UltraEP引入了两项关键创新:
1. 控制平面:配额驱动的规划器 (Quota-driven planner)。该规划器联合优化专家复制和令牌重路由,直接求解每个专家实例最终应承载的令牌负载配额。它通过高效的基于阈值的二分搜索来直接优化重路由后的负载,避免了传统方法中规划与路由分离导致的次优解。
2. 数据平面:RSN原生的通信机制。针对实时复制产生的动态、不规则的专家状态传输,UltraEP设计了专门的通信方案。它通过设备端的持久化瓦片流 (persistent tile streaming) 来饱和带宽,并通过基于中继的块流 (chunk-streaming relay) 树来缓解热门专家的扇出(fan-out)瓶颈。
UltraEP被设计为生产部署友好型系统,与常见的张量、流水线和数据并行兼容,并作为一个独立的运行时库,可以无缝集成到现有的训练和推理框架中。
本文的主要贡献如下:
* 我们对大规模MoE训练和推理预填充(prefill)中的非平稳专家负载不均衡进行了定性分析(§ 3)。
* 我们设计了UltraEP,这是首个在RSNs上为大规模EP MoE部署设计的实时、精确负载均衡器(§ 4)。
* 我们构建了用于关键路径平衡的配额驱动规划(§ 5)和RSN原生的专家状态通信机制(§ 6)。
* 我们验证了UltraEP近乎最优的平衡质量、接近理想的吞吐量和生产级别的可扩展性(§ 8)。
如上文图2所示,一个机架规模节点(RSN)将扩展(scale-up)域从单个4/8-GPU服务器扩展到整个机架,通常涵盖64个以上的GPU【2, 39, 42, 73】。一个RSN仍由多个服务器组成,但跨服务器的GPU通过机架范围的扩展(scale-up)网络结构【29, 40, 58】直接连接。与扩展(scale-out)网络相比,scale-up提供更高的单GPU带宽(数百GB/s至~TB/s)和类加载/存储的内存语义,而scale-out使用网络消息传递,每个NIC通常只提供几十GB/s的带宽。对于MoE模型,一个EP组通常可以容纳在一个RSN内,使专家分派保持在快速的scale-up网络上,而不是较慢的scale-out网络上。
图3. 专家并行(EP)下的MoE前向传播示意:4个专家,EP=2,top-k=2。
我们观察到,在服务和训练中,专家负载分布都表现出高度倾斜、异构和动态的特性。
在服务中,预填充阶段是专家负载不均衡的主要来源。如图4所示,专家流行度在不同语义(如科学、编码和混合领域)的流量之间急剧变化。即使在单个领域内,热门专家也会在不同批次间漂移。这种工作负载既高度倾斜又非平稳。
图4. 在Qwen3-235B(128专家中激活top-8,EP=64)上采样的预填充阶段专家负载分布。负载在前向步骤、数据域和层之间变化。不均衡比率表示最大单专家负载与平均值的比值。
训练展现了不同但同样具有挑战性的模式。如图5所示,在训练早期,由于路由器特化尚未稳定,专家负载高度不稳定。随着训练进行,平均分布变得更平滑,但强烈的动态性依然存在。即使是DeepSeek风格的路由补偿也无法消除振荡。在更细的粒度上,由采样随机性引起的微批次间抖动也依然可见。
图5. 在GLM4.5-106B-A12B(使用GShard风格辅助损失)和DeepSeek-V3(使用DeepSeek风格辅助损失)上采样的训练初期和后期专家负载分布(EP=64)。
我们研究了EPLB【12】在大规模EP下缓解rank级不均衡的效果。如图6所示,EPLB依赖历史负载统计,无法追踪预填充或训练中快速、非平稳的负载变化。当实际负载偏离用于推导专家布局的统计数据时,EPLB甚至可能加剧不均衡,产生新的尖峰和掉队者。这促使我们设计一种能够响应瞬时负载而非基于过时测量的实时方案。
图6. 使用EPLB前后EP=64下的Rank级不均衡。EPLB的重新平衡间隔在预填充为50批次,训练为3个全局批次。左图为混合数据预填充,右图为第3510个全局批次的训练。
UltraEP旨在通过精确负载实现实时专家负载均衡。每个EP组位于一个RSN的scale-up域内,而跨机架的scale-out扩展使用PP和DP。本节介绍UltraEP的专家布局与内存管理、执行流水线、优化问题公式化,并提炼出实际挑战。
专家布局。如图7所示,我们区分逻辑专家(模型定义的专家身份)和物理专家(rank上的具体存储槽)。每个rank保留相同数量的主槽(main slot)和冗余槽(redundant slot)。主槽托管逻辑专家的原始物理实例,而冗余槽要么托管一个逻辑专家的副本,要么保持为空。这种固定布局使运行时保持简洁和确定性,并产生一对多的逻辑到物理映射。
仅复制策略 (Replication Only)。UltraEP采用仅复制的均衡策略,从不重排主专家。这种无重排设计是有效的,因为大规模EP减少了每个rank上的本地主专家数量(通常为2或4个)。此时,重排带来的边际效益递减,却会引发大量的状态迁移、控制复杂性和局部性破坏。相比之下,复制能经济高效地扩展实际瓶颈的服务能力。
跨层缓冲区复用。对于主专家,UltraEP保留标准的内存布局。对于每个冗余槽,它不保留优化器状态(优化器更新仅在主专家上应用),并在各层之间共享权重/梯度缓冲区。在Qwen3-235B-A22B(94个MoE层,128个专家)中,这将单个冗余槽的内存占用从3.3GB权重和6.6GB梯度减少到每rank 36MB和72MB,代价是在前向关键路径上增加了每个层级的权重物化(weight-materialization)期限。
表1. UltraEP中使用的符号。
图7. 专家布局和缓冲区管理(示例:8个专家,单层,EP=4,n_slot=1)。冗余专家槽在各层之间复用权重和梯度缓冲区,没有优化器状态。主专家保留全套缓冲区。
图8. 启用UltraEP的MoE前向传播过程。
图9. 启用UltraEP的MoE后向传播过程。
我们为每个EP组独立求解一个在线优化问题。相关符号见表1。
UltraEP将平衡规划视为一个由精确运行时负载驱动的联合复制-重路由问题。我们不先决定副本再用单独的重路由策略修补,而是直接求解最终的每个实例的负载配额 $q$。
阈值公式化。我们寻找最小的负载阈值 $\tau$,使得所有rank的负载都能通过复制被降到 $\tau$ 以下。对于一个候选阈值 $\tau$,我们定义rank $r$ 需要卸载的超额负载 $exc_r(\tau)$ 和可以吸收的空闲负载 $slk_r(\tau)$:
一个阈值 $\tau$ 是可行的,如果超额负载可以被重新分配到有空闲资源的rank上,而不违反槽预算或无重复约束。
配额构建。UltraEP在平均rank负载和初始最大rank负载之间对 $\tau$ 进行二分搜索,并为每个探针运行一个贪婪的可行性预言机。对于一个候选 $\tau$,预言机按降序访问过载的rank及其主专家,将尽可能多的负载从最热门的专家转移到具有最大空闲且符合条件的rank上。此过程同时创建副本并更新其配额。这种方法之所以高效,是因为它以配额为耦合变量,在选择副本的同时预留了重路由容量,避免了枚举副本集或令牌级路由。
基于局部性的配额分解。一旦配额 $q$ 确定,重路由仅需实现一个与求解出的配额目标相匹配的源端拆分 $s$。对于每个专家,UltraEP首先让源自同一主机rank的令牌消耗该主机的配额,以利用局部性减少跨rank流量。剩余的源需求则按比例分配到剩余的配额容量中。
令牌分配。配额指定了源到实例的聚合计数。每个rank将此分解结果存储为按物理实例排序的累积配额。在分派时,通过一次上界查找即可确定每个令牌的目的地,该过程独立于优化程序。
UltraEP在设备上完全实现了配额求解,避免了关键路径上的CPU同步和设备-主机元数据移动。该算法利用warp级并行和数据局部性,通过一个协作线程块在共享内存中暂存负载矩阵和放置状态,跨warp评估多个阈值探针,并使用warp级归约来寻找符合约束的目标。整个求解过程从一个CPU侧的组合搜索转变为一个紧凑的GPU常驻可行性问题。
UltraEP的平衡流量是在RSN scale-up网络上的一种运行时自适应的稀疏传输图。我们优化了两个瓶颈:非负载开销和热门专家的扇出。
机制。权重分发和梯度归约都使用相同的执行单元:将专家权重或梯度划分为固定大小的瓦片(tile),并将求解的放置计划编译为设备常驻的瓦片传输任务。UltraEP运行一个持久化内核,其线程块不断从全局任务流中拉取下一个瓦片任务。对于权重分发,每个源瓦片被暂存到共享内存一次,然后存储到所有远程副本目的地。对于梯度归约,来自远程副本的梯度瓦片被加载并累加到主专家的本地梯度缓冲区中。内核在每个线程块内对共享内存瓦片进行双缓冲,从而将任务查找、地址转换和同步等开销折叠到瓦片流水线中,并被数据移动所隐藏。
重叠感知的资源占用。瓦片流内核通过常驻线程块数量来控制资源。在前向关键路径上,启动足够多的线程块以饱和带宽。在可重叠的后向路径上,则明确限制资源占用,以最小化与其他计算内核的竞争。
图10. 热门专家扇出的中继方案。假设rank 0上的一个专家需要多播到rank 1-9,选择rank 2, 5, 8作为中继。图中省略了叶子节点和更细粒度的瓦片,展示了每个rank上收发通道随时间的状态。
基线:
评估指标:训练性能报告为TFLOPS/GPU;服务性能报告为每秒请求数(RPS)与首个令牌时间(TTFT)的关系。同时报告rank级的最大/平均不均衡比率。
表2. RSN配置。
表3. 评估的模型和并行设置。
图11. 端到端训练性能:在三个模型上20个训练迭代中的吞吐量变化。
图12. 端到端预填充性能:在两个数据域和两个模型上的RPS-平均TTFT权衡。
如图13所示,我们分解了Qwen3-235B-A22B训练中每MoE层的延迟。与理想情况相比,UltraEP引入的额外开销极小(前向0.33ms,占总延迟的1.8%),表明其关键路径开销已最小化。MoE计算延迟已接近理想值,证实了rank级负载不均衡基本被消除。与理想情况的主要差距在于令牌all-to-all通信,这是由真实MoE训练中不均匀的令牌路由造成的,而非平衡开销。
图13. Qwen3-235B-A22B训练期间前向和后向传播的延迟分解。
如图14所示,不均衡会导致接收端最热的rank上激活内存占用激增(训练中峰值高出理想情况2倍,服务中高出11倍)。UltraEP通过平滑接收端热点,显著降低了MoE激活内存峰值,使其接近理想情况,从而降低了内存溢出风险。
图14. 峰值GPU内存分解。
图15. EPLB+与UltraEP平衡质量的深入比较。上图:所有训练和预填充评估中的不均衡度分布;下图:在各种MoE、EP和冗余设置下的模拟平衡效果。
表4. 图15中模拟的平均平衡指标,包括求解时间、消耗的冗余槽、最大副本扇出和流量比率。
图16. 在Qwen3-235B和EP64上,不同不均衡水平下专家权重分发的通信延迟比较。
如图17所示,在2560个GPU上训练RefMoE-288B时,尽管存在大规模硬件和网络的可变性,UltraEP仍能维持超过92%的理想吞吐量,相比无平衡情况平均提升9.6%,同时保持了训练的收敛性。
图17. 2560-GPU RefMoE-288B训练的吞吐量和损失曲线。
UltraEP为在RSN上进行的大规模EP MoE训练和服务预填充实现了精确负载的专家平衡。通过将基于配额的规划与RSN原生的专家状态通信相结合,UltraEP能够响应已实现的路由并执行实时平衡,同时保持关键路径开销很小。我们的评估验证了其接近理想的吞吐量、近乎最优的平衡质量和生产级别的可扩展性。由于UltraEP同时覆盖了训练和推理,其抽象可以自然地扩展到交替执行这两个过程的强化学习(RL)流水线中。
以下是论文方法细节章节(Section 4, 5, 6, 7)中引用的参考文献及其上下文描述:
引用 [9] DeepEP: A high-performance communication library for MoE training and inference (2025)
引用 [28] PyTorch distributed: experiences on accelerating data parallel training (2020, VLDB Endowment)
引用 [37] Efficient large-scale language model training on gpu clusters using megatron-lm (2021, SC)
引用 [56] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism (2019, arXiv)
引用 [70] SGLang: Efficient Execution of Structured Language Model Programs (2024, NeurIPS)