DisagMoE: Computation-Communication Overlapped MoE Training via Disaggregated AF-Pipe Parallelism

发表时间: 2026-05 · arXiv:2605.11005

文章标题：DisagMoE：通过解耦的AF-Pipe并行实现计算-通信重叠的MoE训练
作者/机构：Zhichen Zeng1,2, Chi-Chih Chang1,3, Jiayi Wang2, Zezhou Wang2, Ningxin Zheng1, Zheng Zhong1, Cesar A. Stuardo1, Dongyang Wang1, Mohamed S. Abdelfattah3, Haibin Lin1, Banghua Zhu2, Ang Li2, Ziheng Jiang1 (1ByteDance Seed, 2University of Washington, 3Cornell University)

A1 主要贡献

本文旨在解决混合专家（MoE）模型训练中的一个核心瓶颈：专家并行（Expert Parallelism, EP）策略引入的严重all-to-all通信开销。随着模型规模增长，专家需要分布在多个GPU节点上，有限的节点间网络带宽使得这一问题更加突出。现有的工作主要通过将all-to-all通信与前馈网络（FFN）和自注意力（self-attention）计算重叠来优化，但由于注意力和FFN层在计算-通信比率上存在固有的不平衡，这种方法常常留下无法被隐藏的网络瓶颈。

研究目标：为了解决上述不平衡问题并实现可扩展的重叠训练，本文提出了DisagMoE，一个用于大规模MoE训练的系统，它通过联合优化模型放置和调度来最大化训练效率。

核心创新点：
1. 解耦的组件放置（Disaggregated component placement）：DisagMoE将模型按组件类型（注意力和FFN）进行划分，并将它们分配到不同的工作组（worker groups）。注意力组复制密集型组件并按微批次（micro-batch）分发训练数据，而FFN组则对专家进行分片，并根据专家选择处理令牌。每个组可以拥有来自多个Transformer层的同类型组件，从而在GPU内存约束下最大化设备利用率。
2. 带重叠的多阶段流水线（Multi-stage pipeline with overlapping）：本文提出了AF-Pipe，这是一种多阶段调度策略。它用组间的“多对多”（many-to-many, M2N）令牌交换替代了传统的all-to-all通信，并将通信视为与注意力和FFN计算并列的一等流水线阶段。通过跨组对齐阶段边界，系统性地将通信与两种计算都重叠起来。
3. 自适应工作组分配（Adaptive worker allocation）：DisagMoE采用一个自适应分配器，该分配器联合调整注意力和FFN组的大小，并重新分配它们之间的网络接口控制器（NIC）带宽。在一个轻量级的计算-通信屋顶线模型（Compute-Communication roofline model）的指导下，这种调整能够平衡不同序列长度、top-k选择标准和EP规模下的通信与计算时间，从而扩展了有效的重叠窗口，减少了关键路径上的通信，并缓解了限制先前重叠策略的注意力-FFN不平衡问题。

根据在8节点H800 GPU上使用Megatron-LM执行MoE模型的分析，通信开销在训练步骤中占比可高达50%，凸显了优化通信的必要性。

图1 MoE执行的分析。使用Megatron-LM在8节点H800 GPU上执行的MoE模型的时间分解。

A3 背景知识与设计动机

2. 背景知识

2.1 混合专家（MoE）结构

MoE架构用一组FFN专家替代标准FFN。MoE架构是有效扩展LLM并提升性能的关键技术。它用一组称为“专家”的多个FFN替代了标准的FFN层。如图2(a)所示，MoE模型使用一个可训练的门控网络（gate network）来选择得分最高的top-k个专家。这些被激活的专家的输出通过加权求和进行合并，其结果作为下一注意力层的输入。现代大规模MoE模型表现出高度稀疏的激活特性，其条件计算（conditional computation）原则使得模型参数能够扩展到数千亿甚至万亿级别，而浮点运算（FLOPs）的增长仅为次线性。例如，拥有1.6T总参数的DeepSeek-V4-Pro模型【索引8，DeepSeek-V4-Pro，2026，Hugging Face】通过激活384个专家中的6个，使得每个令牌只激活49B参数。

2.2 分布式LLM训练

分布式训练通过互补的并行策略扩展LLM。
* 数据并行（Data Parallelism, DP）：在设备间复制模型状态，切分批次进行独立计算，并通过all-reduce同步梯度。DeepSpeed-ZeRO【索引21，Zero: Memory optimizations toward training trillion parameter models，2020，SC20】和FSDP【索引33，Pytorch fsdp: experiences on scaling fully sharded data parallel，2023，arXiv】等内存优化变体对参数、梯度和优化器状态进行分片。
* 流水线并行（Pipeline Parallelism, PP）：将网络层划分为通过激活值传输连接的顺序阶段。Megatron-LM【索引17，Efficient large-scale language model training on gpu clusters using megatron-lm，2021，SC'21】采用1F1B调度来减少激活值内存占用，只留下微小的流水线气泡。
* 专家并行（Expert Parallelism, EP）：MoE使用EP将专家分片到不同GPU上，令牌被动态路由到其分配的专家（图2(b)）。每个前向/后向传播过程包含两次all-to-all操作（分发和合并）用于专家间通信。

表1 DisagMoE符号说明。

3. 挑战与动机

3.1 MoE通信开销占主导地位

大规模EP训练中通信开销巨大。在跨节点的大规模EP训练中，专家被分片到多个GPU和节点上。根据表2中的符号，每个GPU的all-to-all通信量期望为 $V = \frac{EP-1}{EP} N k$，因为每个GPU需要与所有非本地GPU交换令牌。节点内传输使用NVLink，而跨节点传输使用InfiniBand (IB)或以太网【索引10，Rdma over ethernet for distributed training at meta scale，2024，SIGCOMM】。端到端通信延迟由较慢的互连决定，通常是IB（约100GB/s），远低于NVLink（约900GB/s）。随着EP规模跨越更多节点，通过IB访问的对等方比例增加，从而加剧了通信延迟开销。如图3a所示，随着EP规模从单节点扩展到8节点，all-to-all通信在总训练时间中的占比从22%上升到近78%。同时，由于通信量V与top-k选择的令牌数几乎成线性关系，如图3b所示，all-to-all的时间占比也随之大幅增加。因此，在任一维度上扩展都会在训练中引入巨大的通信开销，导致系统进入通信瓶颈状态。

图3 (a) MoE all-to-all时间占比(%)随节点数变化。(b) 不同top-k选择的影响。两者均在DeepSeek-MoE模型上使用8K序列长度测试。

3.2 未被充分利用的算子级重叠空间

现有方法在算子级重叠上存在局限。鉴于all-to-all开销的主导地位以及其在注意力和FFN周围的对称性（分发和合并），现有系统【索引12，Fastermoe: modeling and optimizing training of large-scale dynamic pre-trained models，2022，PPoPP；索引13，Tutel: Adaptive mixture-of-experts at scale，2022，arXiv；索引15，Lancet: Accelerating mixture-of-experts training via whole graph computation-communication overlapping，2024，MLSys；索引32，Comet: Fine-grained computation-communication overlapping for mixture-of-experts，2025，arXiv】试图通过将计算切分成算子级块，并在这些块之间流水化分发和合并操作来隐藏通信。由于FFN中的GroupGEMM易于分块，大多数系统【索引12, 13, 32】将重叠限制在all-to-all和FFN计算之间（如图4所示）。一种编译器驱动的方法【索引15】通过微批次级分区和流水线扩展了重叠，以缩小注意力周围的通信气泡。然而，使用FlashAttention【索引5，Flashattention: Fast and memoryefficient exact attention with io-awareness，2022，NeurIPS】的自注意力仍然难以完全分块。因此，当all-to-all占主导时，仍然存在无法重叠的通信尾部，如图5所示。对算子级重叠的分析发现，先前工作狭隘的关注点限制了重叠机会，导致性能次优。这些方法忽视了跨越注意力与FFN的更丰富的模块级重叠，这启发了一种更通用的调度策略来解锁完整的模块级重叠空间。

图4 (a) 原始MoE前向传播。(b) 将all-to-all与FFN重叠，如Comet和Tutel。(c) 微批次级流水线以减少气泡。当all-to-all占主导时，仍有无法重叠的尾部。
图5 在算子级重叠方法下，仍然存在无法被计算隐藏的通信尾部。

3.3 注意力与FFN之间的计算-通信不平衡

注意力和FFN在计算与通信特性上存在根本性不平衡。在混合EP-DP并行配置下，对于每个EP组，注意力FLOPs成本为 $F_a(s) = \alpha_1 s^2 + \alpha_2 s$，而FFN成本为 $F_f(s) = \beta s$。在网络方面，分发和合并all-to-all阶段传输的令牌量相同，总通信量为 $V = \gamma s$。如图6a所示，随着序列长度从4K增长到32K，注意力部分在总计算中的占比从28.38%增加到50.26%，而FFN的占比从19.22%下降到13.96%。注意力的计算-通信比从1.08上升到2.78，而FFN的该比率几乎保持不变。这些趋势凸显了注意力和FFN层独特的网络-计算特性。

屋顶线模型揭示了资源分配不均的问题。我们应用屋顶线模型【索引2，How to scale your model，2025，Web】来表征注意力和FFN的计算-通信行为，如图6b所示。系统的性能瓶颈由算术强度 $I = \frac{\text{Compute FLOPs}}{\text{Communication Bytes}}$ 和拐点 $\hat{I} = \frac{\text{Peak FLOPs}}{\text{Peak Bandwidth}}$ 决定。由于注意力计算量随序列长度呈二次方增长，而FFN和通信量呈线性增长，因此注意力的算术强度增长更快，使其能更早达到计算瓶颈区。这种分歧凸显了一个根本性的不平衡：注意力能有效利用计算资源，而FFN则受限于通信。因此，整个系统的性能受限于FFN的通信开销。这些洞察启发了一种解耦架构，将注意力和FFN分离到独立的资源组中，使每个部分都能在其最佳的计算-通信平衡点附近运行。

图6 (a) 训练Qwen-3时，在8个节点上注意、FFN和all-to-all通信的延迟百分比。(b) 计算-通信屋顶线模型显示了在相同网络屋顶下的注意力和FFN。整体操作点作为两个模块的加权平均，说明了它们的不平衡，并激发了解耦的资源分配。

A2 方法细节

本节介绍DisagMoE，一个用于大规模MoE模型的训练系统，它通过在解耦设计中共同重新思考放置和调度来缓解all-to-all瓶颈。设计按依赖顺序组织：一个将注意力和FFN映射到不相交工作组的解耦放置（4.1节），一个基于此放置构建的面向吞吐量的流水线调度AF-Pipe（4.2节），以及一个能高效搜索流水线配置的自适应工作组分配策略（4.3节）。

4.1 解耦的组件放置

按组件类型划分模型并交错分配到不同工作组。我们首先介绍DisagMoE的底层解耦架构。在该架构中，注意力和FFN层被划分到不同的组并分配给独立的工作组集合。具体来说，DisagMoE按组件类型（c ∈ {A, F}，A表示自注意力，F表示前馈网络块）划分Transformer，并为每种类型形成交错的组。对于组件c的第g组（g ∈ {0, ..., p-1}），其中p≥1为每种组件类型的组数，分配的层为：

因此，每个组会接收其对应组件类型在深度上每隔p层的实例。除非特别说明，我们对A和F使用相同的p值。

分组示例与并行策略。例如，当L=8层，p=2组时，注意力组为{A0, A2, A4, A6}和{A1, A3, A5, A7}；FFN组遵循相同模式。每种类型的第g组被放置在专用的工作组 $W_g^c$ 上。对于注意力工作组（A-Workers），组内GPU遵循数据并行（DP）进行复制。对于FFN工作组（F-Workers），每个FFN层内的专家则使用专家并行（EP）分布在组内GPU上。这种设计使得每种组件类型的所有组都保持同构且配置相同，从而在固定的设备内存预算下支持更大的MoE配置，并允许跨组统一扩展，以维持计算和通信利用率的平衡。

图7 解耦的注意力-FFN放置。注意力组（{A0, A2, A4, A6}等）被分配到A-Workers，其中GPU使用数据并行（DP）复制。FFN组被放置在F-Workers上，其中专家遵循专家并行（EP）分布在GPU上。工作组通过NIC以多对多（M2N/N2M）链路通信，实现了跨模块的计算和通信重叠。

4.2 带重叠的AF-Pipe

本节描述如何使用一个统一的、带重叠的多阶段流水线（称为AF-Pipe）来高效地训练基于解耦MoE的LLM。

4.2.1 AF-Pipe时间复用调度

采用流水线并行以避免工作组空闲。由于注意力和FFN模块被划分到不同的工作组，独立训练单个批次会导致一个组在另一个组工作时处于空闲状态。为缓解这种低效，如图8所示，DisagMoE引入了AF-Pipe，这是一种定制的流水线并行（PP）策略，它将解耦架构与时间复用级的流水线并行相结合。具体来说，AF-Pipe将一个批次划分为多个微批次，并在它们之间进行流水线执行。在前向传播中，每个微批次的中间结果（隐藏状态）从注意力工作组传输到FFN工作组。在后向传播中，隐藏状态的梯度沿相反方向从FFN工作组传回注意力工作组。这种设计确保了两个组件组都能持续保持活跃，从而实现了高效利用并最小化了流水线空闲时间。

4.2.2 AF-Pipe的M2N阶段边界

引入M2N/N2M通信边界以取代传统all-to-all。在DisagMoE中，传统的all-to-all交换演变为注意力工作组（M个GPU）和FFN工作组（N个GPU）之间的多对多（M2N/N2M）通信原语。AF-Pipe在注意力和FFN组之间引入了多阶段的M2N/N2M通信边界，这借鉴了MegaScale-Infer【索引34，Megascaleinfer: Serving mixture-of-experts at scale with disaggregated expert parallelism，2025，arXiv】和StepMesh【索引28，Step-3 is large yet affordable: Model-system co-design for costeffective decoding，2025，arXiv】的思想，旨在消除冗余数据传输并减少大规模专家的通信开销。这种多阶段M2N通信以全双工方式运行，可充分利用带宽。通过将传统的点对点（P2P）和合并（combine）操作融合成一个统一的通信阶段，AF-Pipe将总通信成本降低了大约1/k，并实现了跨组的系统性计算-通信重叠。与传统流水线相比，AF-Pipe的流水线气泡显著减小。基线的气泡时间为 $T_{bubble\_base} = (2L-1)(T_a + T_f) + 2L T_{a2a}$，而AF-Pipe的气泡时间为 $T_{bubble\_afpipe} = (2L-1)\max(T_a, T_f) + T_{M2N}$。当每层一个阶段（L=1）且 $T_{M2N} \approx T_{a2a}$ 时，AF-Pipe的气泡大约是基线的四分之一，因为它消除了P2P延迟并将两个all-to-all操作融合成一个重叠的M2N阶段。

PROTECTED_IMAGE_18____PROTECTED_IMAGE_20

4.2.3 M2N通信与异步执行的重叠

通过异步执行流最大化利用率。在AF-Pipe中，我们通过异步执行流将M2N/N2M通信与计算重叠。如图8所示，每个A组和F组都维护专用的发送和接收ProcessGroups，并在每个工作组的三个协调流（前向、后向和通信）上异步启动，以保证非阻塞执行。例如，在稳态调度中，F工作组在时间段T0，通过N2M发送后向计算F_1的梯度结果给前一个A工作组，同时其计算流并发执行F_66的前向传播。与此同时，该F工作组接收来自下一个A工作组A_27的后向结果。通过精心设计的资源分配（4.3节），每个阶段的计算时间保持平衡，维持高流水线利用率并最小化空闲时间。A工作组也对称地执行相同的异步操作。这种设计不仅重叠了计算和通信，还最小化了同步开销，实现了几乎连续的GPU利用。

4.3 自适应工作组分配

本节提出了一个计算-通信屋顶线模型来指导解耦计算和通信资源的自适应分配，并将GPU/NIC在注意力和FFN组之间的划分问题构建为一个混合整数线性规划（MILP）问题。由于预训练工作负载具有固定的序列长度和批次大小，一次性的静态分配足以平衡吞吐量和利用率。

用于AFD的计算-通信屋顶线模型。为了捕捉注意力和FFN不平衡的计算-通信特性，我们将经典屋顶线模型扩展到AFD架构。我们只考虑节点间通信（如IB带宽）。在AF-Pipe中，注意力和FFN以时间复用流水线方式执行，并进行双向通信。我们将其建模为两个通信的工作组集群：注意力（m个节点）和FFN（n个节点）。我们固定A/F工作组的NIC数量，并确保两个组共同占用系统总NIC的一半，以维持平衡的入口/出口带宽。

图9 聚合与解耦（AFD）架构的计算-通信屋顶线模型比较。在聚合基线（灰色）中，注意力和FFN共享相同的斜率（网络带宽）和屋顶（计算能力），导致FFN受通信限制，拉低了整体操作点。在AFD中，我们通过资源分配重新分配NIC带宽。FFN工作组（蓝色）获得更高的有效单位GPU网络带宽（更陡的斜率），更接近计算屋顶；而注意力工作组（紫色）仍保持在计算屋顶附近，从而获得更高的整体系统性能。

不同组件的有效拐点。根据3.3节，聚合系统的拐点由算术强度阈值 $\hat{I}$ 决定。在AFD中，每个组的峰值FLOPs与其GPU数量（注意力为m，FFN为n）成比例，而两者通过平衡的NIC分配维持相同的峰值网络带宽。因此，它们的有效拐点不同：

计算量、通信量与算术强度分析。我们关注主要的GEMM操作。以组查询注意力为例，注意力部分的FLOPs约为 $C_a = b(SH^2(2 + 2/g) + 4S^2H)$，专家部分的FLOPs约为 $C_f = b(4kSHD_e)$。bfloat16数据的总通信量约为 $b(2SkH)$。因此，算术强度分别为 $I_{attn} = \frac{H(2+2/g)+4S}{2k}$ 和 $I_{ffn} = 2D_e$。如图9所示，FFN节点需要更高的IB带宽来充分利用其计算能力，而注意力节点更偏向计算密集型，对单位GPU的带宽需求较低。AFD架构允许我们提升FFN组的通信屋顶（斜率），使其计算更接近峰值屋顶，从而提高整体系统性能。

基于屋顶线模型的资源放置。我们将W个GPU和M_tot个NIC联合分配给两个组。每个阶段的延迟是其计算和通信时间的最大值：

其中 $C_a, C_f$ 是每次迭代的FLOPs，V是组间通信量。

两阶段放置策略。AF-Pipe将两个组耦合为生产者-消费者流水线，迭代时间取决于 $\max(T_a, T_f)$。因此，我们分解放置策略：(i) 首先通过GPU划分最小化瓶颈阶段时间 $T^* = \min \max(T_a, T_f)$；(ii) 在达到 $T^*$ 的配置中，通过NIC划分最大化模型FLOPs利用率（MFU），这等效于最大化 $I_{attn} + I_{ffn}$。该问题可形式化为以下MILP：
PROTECTED_IMAGE_21____PROTECTED_IMAGE_24

算法描述。基于【索引11，Gurobi Optimizer Reference Manual，2026，Gurobi Optimization, LLC】的MILP求解器产生一个屋顶线引导的种子配置 $(M_0, M_{a,0})$。随后，算法1通过在实测的单步时间上进行局部搜索来微调此配置，以吸收分析成本模型中未建模的效应。

算法1 AFD分配：屋顶线种子与剖析引导的微调
需要: Θ = ($C_a$, $C_f$, V, P, $B_{IB}$), W, $M_{tot}$, 搜索半径r, 试验次数K, 容忍度ϵ
确保: GPU划分 $M^*$, NIC划分 $M_a^*$
1: S ← ∅, $T^*$ ← ∞ ▷ 阶段1: 通过式(7a)最小化瓶颈阶段
2: for 可行的 (M, $M_a$) under Eq. (7) do
3: T ← max($T_a$, $T_f$)
4: if T < $T^*$ - ϵ then $T^*$ ← T, S ← {(M, $M_a$)}
5: else if T ≤ $T^*$ + ϵ then S ← S ∪ {(M, $M_a$)}
6: end if
7: end for
8: ($M_0, M_{a,0}$) ← arg max_S($I_{attn}$ + $I_{ffn}$) ▷ 阶段2: MFU决胜(式(7b))
9: ($M^*, M_a^*, T^*$) ← ($M_0, M_{a,0}$, Profile($M_0, M_{a,0}$)) ▷ 阶段3: 局部微调
10: for k = 1 to K do
11: ($M', M_a'$) ← clip(($M^*, M_a^*$) + rand(-r, r))
12: if Profile($M', M_a'$) < $T^*$ then update ($M^*, M_a^*, T^*$)
13: end if
14: end for
15: return ($M^*, M_a^*$)

A4 实验环境

代码实现：DisagMoE由6000行Python和2000行C++代码实现，基于PyTorch v2.6和Megatron-LM。M-to-N/N-to-M通信原语利用GPUDirect【索引19，Gpudirect，2025，NVIDIA】和GPUCopy【索引18，Gdrcopy，2025，NVIDIA】实现。系统与Megatron-LM【索引25，Megatron-lm: Training multi-billion parameter language models using model parallelism，2019，arXiv】无缝集成。
硬件配置：实验在一个包含16个节点的集群上进行。每个节点配备8块Nvidia H800 GPU（每块80GB显存）、168个CPU核心和8个400 GbE的ConnectX-7 NIC。同一节点内的GPU通过400GB/s的NVLINK互连。
模型与数据集：评估基于三个MoE模型：DeepSeek-MoE【索引4，Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models，2024，arXiv】、GPT-OSS-120B【索引1，gptoss-120b & gpt-oss-20b model card，2025，arXiv】和Qwen3-235B-A22B【索引30，Qwen3 technical report，2025，arXiv】。模型参数详见表2。全局批量大小设置得足够大以摊销流水线气泡。
基线系统：
1. Megatron-LM：NVIDIA的开源训练框架，采用3D并行。
2. Tutel：SOTA的MoE重叠优化方法【索引13，Tutel: Adaptive mixture-of-experts at scale，2022，arXiv】。
3. Comet：用于MoE的细粒度通信重叠库【索引32，Comet: Fine-grained computation-communication overlapping for mixture-of-experts，2025，arXiv】。
4. DualPipe：一种双向流水线并行方法，用于重叠前向和后向的计算-通信【索引4，Deepseekmoe: Towards ultimate expert specialization in mixture-of-experts language models，2024，arXiv】。

表2 MoE模型配置

A5 实验结果

端到端性能

实验内容：在序列长度为4K到32K的范围内，评估DisagMoE与各基线在不同GPU数量下的训练吞吐量。为保证公平，固定了每个设备的本地批量大小。

实验结果与分析：

总体性能：如图10所示，DisagMoE在所有配置下均优于基线，相比朴素的Megatron-1F1B交错式重叠实现了高达1.81倍的加速，相比SOTA的重叠训练方法实现了高达1.34倍的加速。
与Megatron-1F1B比较：DisagMoE实现了1.59-1.81倍的加速。原因是Megatron的交错式PP虽然重叠了阶段间的P2P通信，但在每个EP组内部仍存在沉重的all-to-all开销。DisagMoE通过分离注意力和FFN并隐藏此通信成本，获得了更高的吞吐量。
与Tutel和Comet比较：DisagMoE实现了1.2-1.5倍的加速。这两种方法仅依赖于算子级重叠，其重叠效果受限于单个FFN操作的计算延迟，在跨节点训练中留下了大量未被重叠的通信开销。DisagMoE通过模块级重叠消除了这些通信气泡。
与DualPipe比较：DisagMoE实现了1.05-1.13倍的平均加速。DualPipe在启动和结束阶段会产生大的all-to-all气泡，并且在稳态下，由于前向和后向传递中注意力和FFN的计算-通信比不匹配，仍会存在未重叠的尾部。DisagMoE通过解耦和自适应资源分配缓解了这些问题。

图10 在DeepSeek-MoE、GPT-OSS和Qwen3上，不同序列长度（4K–32K）的端到端训练吞吐量。DisagMoE持续优于Megatron、Tutel、Comet和DualPipe，相比Megatron-1F1B最高加速1.81倍，相比SOTA MoE重叠系统最高加速1.34倍。

迭代时间分解：如图11所示，在deepseek-moe模型和8K序列长度下，DisagMoE实现了更高水平的计算-通信重叠，与Tutel、Comet和Dualpipe相比，未重叠的通信时间分别减少了高达88%、75%和45%。

消融实验

资源分配的影响：
- 实验内容：根据4.3节的屋顶线模型，改变注意力和FFN组的计算与通信资源比例，观察其对DisagMoE性能的影响。
- 实验结果与分析：如图12所示，最佳的GPU比例随序列长度变化。长序列（如16K）偏好更多的注意力资源（A:F为16:10时达到最佳），而短序列（如4K）偏好平衡的资源比例（16:16）。强制的非均衡比例会引入流水线气泡，损害性能。

图12 注意力-FFN资源分配对吞吐量的影响。y轴显示了相对于Megatron的单位GPU吞吐量加速比。最佳A:F比例随序列长度而变化，较长的序列偏好更多的注意力资源。

top-k和EP规模的影响：
- 实验内容：调整top-k大小和EP规模，评估DisagMoE在总专家数为64时的性能。
- 实验结果与分析：如图13所示，增加top-k或EP规模会增加总训练时间。DisagMoE在不同设置下始终表现出更好的性能，与基线相比加速比在1.08-1.92倍之间。

图13 top-k和专家并行（EP）规模对训练性能的影响。增加top-k会提高通信和FFN计算成本，而更大的EP规模会扩大跨节点通信。

虚拟阶段的影响：
- 实验内容：分析DisagMoE中交错虚拟阶段数量对训练吞吐量的影响。
- 实验结果与分析：如图14所示，增加虚拟阶段数量（v）可以通过减少流水线气泡来提高吞吐量。然而，当v超过16时，由于单个组需要存储所有16个层的参数和激活值，导致GPU内存溢出（OOM）。这说明了为什么将面向服务的AFD系统（如HeteroMoE【索引29，Hetermoe: Efficient training of mixture-of-experts models on heterogeneous gpus，2025，arXiv】）直接扩展到训练工作负载会迅速导致OOM。

图14 虚拟阶段大小对训练吞吐量的影响。更多的虚拟阶段可以提高流水线利用率，直到达到内存限制（v ≤ 16），超过该限制GPU会耗尽内存。

A7 补充细节

7. 局限性与讨论

局限性

工作负载稳定性假设。DisagMoE假设工作负载形状稳定，如固定的序列长度和微批次大小，这在预训练中很常见。支持动态形状的工作负载（如强化学习训练）需要在线资源重分配，这超出了本文的范围。

对称流水线深度。当前设计对注意力和FFN组使用相同的流水线深度p。采用非对称深度($p_A$, $p_F$)是一个有前景的扩展方向，但会引入不可忽视的调度复杂性，我们将其作为未来工作。

软硬件协同设计洞见

核心观察。本文的屋顶线分析揭示了一个关键观察：通信是否能被完全隐藏，取决于每个组件的计算-通信比，而非原始的互连带宽。由于注意力和FFN在该比率上存在结构性不平衡，统一地扩展整个系统的带宽无法同时将两个组件都推向计算屋顶。

DisagMoE的价值。这正是DisagMoE将注意力和FFN解耦到不同工作组，并自适应地重新分配GPU和NIC预算的原因。这样，每个组件都被驱动向其自身的计算-通信最优比率，从而扩展了有效重叠窗口，超越了对称带宽配置所能达到的效果。这一观点与DeepSeek-V4【索引8，DeepSeek-V4-Pro，2026，Hugging Face】的硬件提议相呼应，共同表明未来的硬件设计应着眼于优化各组件的计算-通信比，而不仅仅是扩展带宽。

A6 结论

本文提出了DisaggMoE，一个解耦的MoE训练系统，旨在解决大规模专家并行训练中的通信瓶颈。通过将注意力和FFN层划分到独立的工作组，并引入AF-Pipe（一个带有多对多通信重叠的多阶段流水线），DisaggMoE实现了计算与通信之间的细粒度协调。在网络-计算屋顶线模型的指导下，我们的自适应分配器动态平衡了各组间的GPU和NIC资源，在不同的序列长度、top-k和EP规模下均实现了高效率。在8至16节点的H800集群上的实验表明，DisaggMoE持续提升训练吞吐量，相比Megatron-1F1B最高加速1.81倍，相比SOTA的MoE重叠系统最高加速1.34倍。这些结果凸显了解耦架构和通信-计算协同优化对于高效扩展MoE训练的有效性。

方法细节中的参考文献引用分析

引用：【索引28，Step-3 is large yet affordable: Model-system co-design for costeffective decoding，2025，arXiv】和【索引34，Megascaleinfer: Serving mixture-of-experts at scale with disaggregated expert parallelism，2025，arXiv】
- 引用位置：4.2.2 AF-Pipe的M2N阶段边界
- 原文描述：“...extending ideas from MegaScale-Infer [34] and StepMesh [28]”
- 说明：在介绍M2N/N2M通信边界时，作者指出该思想是扩展自MegaScale-Infer和StepMesh的工作，这两个系统是面向推理服务的，DisagMoE将其思想应用于训练场景。
引用：【索引8，DeepSeek-V4-Pro，2026，Hugging Face】，【索引27，Qwen3.5: Accelerating productivity with native multimodal agents，2026，URL https://qwen.ai/blog?id=qwen3.5】，【索引30 ，Qwen3 technical report，2025，arXiv】，【索引31，GLM-5.1，2026，https://huggingface.co/zai-org/ GLM-5.1】
- 引用位置：4.3 自适应工作组分配
- 原文描述：“...pretraining workloads run with fixed sequence lengths and batch sizes that are known offline [8, 27, 30, 31]”
- 说明：在论证静态资源分配策略的合理性时，作者引用了多个大规模预训练模型或技术报告，以证明预训练工作负载通常具有固定的、可预知的形状（如序列长度和批次大小）。
引用：【索引11，Gurobi Optimizer Reference Manual，2026，Gurobi Optimization, LLC】
- 引用位置：4.3 自适应工作组分配
- 原文描述：“The MILP based on [11] yields a roofline-guided seed...”
- 说明：在描述如何求解资源分配的混合整数线性规划（MILP）问题时，作者明确指出其实现是基于Gurobi优化器。