Routing-Free Mixture-of-Experts

A1 主要贡献

核心问题与研究目标: 传统的基于Transformer的大型语言模型(LLMs)的扩展性受到巨大计算资源需求的限制。为了在不按比例增加计算成本的情况下有效扩展模型容量,专家混合(MoE)模型被提出,它只激活模型参数的一个子集来处理每个输入。然而,这引出了一个根本性挑战:如何在满足稀疏性和平衡性考量的同时,将输入最优地分配给各个专家。现有的MoE设计在多个维度上存在结构性限制:
1. 外部路由器的局限性:标准MoE依赖于小型的外部路由器,其容量不足以存储专家的能力信息,导致路由决策是基于间接的试错优化,从而引发次优路由和训练早期的不稳定性。
2. 刚性全局约束:传统MoE为了计算效率,强制实施刚性的、全局性的专家激活约束,忽略了输入的特定动态。固定的TopK选择强加了统一的稀疏度,而Softmax操作则丢弃了专家激活的绝对量级信息。
3. 负载均衡策略的排他性:现有的负载均衡策略(如Token-Choice和Expert-Choice)通常是互斥的,僵化地遵循其中一种策略会限制模型自适应发现潜在更优资源分配模式的能力。

研究目标: 本文旨在解决上述问题,提出一种名为“无路由MoE”(Routing-Free MoE)的全新架构,以消除现有MoE设计中的各种硬编码和中心化组件。

创新点:
- 提出一种无路由MoE架构:该架构完全消除了外部路由器、Softmax、TopK选择以及硬编码的负载均衡机制。每个专家都能够独立且直接地决定自身的激活状态,激活决策完全封装在专家内部,通过可配置的阈值实现。全局的激活模式是由所有专家的集体自我调整自下而上涌现的。


图 1: 标准MoE依赖路由来协调专家激活。无路由MoE让每个专家完全独立地决定自己的激活。绿色表示激活的组件;红色表示未激活的组件;黄色表示可训练的组件。


图 2: 在语言建模任务上,无路由MoE始终优于标准MoE、AoE【索引38,Autonomy-of-experts models,2025】和ReMoE【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】。所有模型都在OpenWebText【索引19,Openwebtext corpus,2019】上使用相同的环境条件和最佳配置进行训练。FLOPs是按一个训练周期估算的。

A3 背景知识

标准MoE LLM的前向传播: 对于一个包含L个Transformer块的标准MoE LLM,在第ℓ层,对于长度为T的令牌序列,其前向传播过程可以表示为:首先,通过自注意力模块和残差连接得到输出$x_{1:T}^ℓ$;然后,MoE块对每个令牌$t$进行映射,得到输出$h_t^ℓ$并加上残差连接。

$$\begin{aligned} \begin{aligned} \mathbf{x}_{1:T}^{\ell} &= \text{SelfAttn}(\mathbf{h}_{1:T}^{\ell-1}) + \mathbf{h}_{1:T}^{\ell-1}, \\ \mathbf{h}_{t}^{\ell} &= \text{MoE}(\mathbf{x}_{t}^{\ell}) + \mathbf{x}_{t}^{\ell}, \end{aligned} \end{aligned}$$

主流MoE层的实现: 主流的MoE LLM在MoE层中包含N个结构相同的FFN专家$E_i(\cdot)$。这是通过一个令牌级的路由机制实现的,其中门控网络$G(\cdot)$将每个令牌分配给K个激活度最高的专家。具体公式如下,其中$G(\cdot)$是一个将D维隐藏状态映射到N维权重的路由机制,其输出作为N个专家输出的加权和的权重,但只有K个专家的权重为非零值。路由器学习一个权重矩阵$G \in R^{D \times N}$,可以看作是N个D维专家向量$g_i$的集合,每个向量对应一个能激活相应专家$E_i$的特征隐藏状态$h_i$。亲和度分数$s_i = xg_i \in R^N$表示令牌与专家之间的关系。TopK(s, K)函数保留最高的K个分数,并将其余分数屏蔽为负无穷。

$$\begin{aligned} \begin{aligned} \mathbf{h} & =\sum\nolimits_{i=1}^N\left(G(\mathbf{x})_i E_i(\mathbf{x})\right)+\mathbf{x}, \\ G(\mathbf{x}) & =\operatorname{Softmax}(\operatorname{TopK}(\mathbf{x} \mathbf{G}, K)), \end{aligned} \end{aligned}$$

专家网络的结构: 每个专家$E_i$通常实现为一个前馈网络(FFN),现代FFN常采用门控线性单元(GLU)的形式。在这种设计中,FFN的计算如公式所示,其中$\sigma$是激活函数,⊙表示逐元素乘法。在MoE LLM中,这种设计提供了第二层输入依赖的信息过滤,可能产生更有效的表示。

$$\text{FFN}(\mathbf{x}) = [\sigma(\mathbf{x}\mathbf{W}_{\text{up}}) \odot (\mathbf{x}\mathbf{W}_{\text{gate}})]\mathbf{W}_{\text{down}},$$

标准MoE的归纳偏见: 标准MoE中的路由机制存在几个强大的归纳偏见。首先,路由器的容量(仅N个专家向量$g_i \in R^D$)远小于专家本身,却必须将所有N个专家的知识密集型激活偏好压缩成单一的点积得分,并且没有任何关于专家能力的直接信号,只能通过间接的试错来改进,这在【索引38,Autonomy-of-experts models,2025】中被指出。其次,TopK操作硬编码了一个固定的稀疏率K/N,忽略了不同输入的复杂性,阻止了输入自适应的激活模式,正如【索引62,Mixture-of-experts with expert choice routing,2022】所讨论的。最后,Softmax通过强制一个竞争性的概率分布,丢弃了激活的绝对量级信息,当其他专家碰巧得分也较高时,会抑制那些高度合适的专家的残差贡献,这一点在【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】中有所提及。

A2 方法细节

3.1 架构

借鉴AoE的专家内部评分机制: 为了缓解路由器的瓶颈问题,Lv等人【索引38,Autonomy-of-experts models,2025】提出了专家自治模型(Autonomy-of-Experts, AoE)。AoE的FFN设计如公式6所示,其中$A_{gate} \in R^{D \times r}$将输入隐藏状态x从D维投影到低维r($r \ll D$),然后$B_{gate} \in R^{r \times D_{act}}$将其投影回来。这种低秩表示提供了一种源自专家内部而非外部路由器的专家适用性指标。因此,每个专家可以通过对其内部表示应用范数$||xA_{gate,i}||_2$来直接产生其自身的标量激活分数。然而,AoE将这些内部分数反馈回标准的中心化TopK和Softmax路由流水线中(如公式7所示),从而保留了传统路由的结构约束和归纳偏见。

$$\mathrm{FFN}(\mathbf{x}) = [\sigma(\mathbf{x} \mathbf{A}_{\text{gate}} \mathbf{B}_{\text{gate}}) \odot (\mathbf{x} \mathbf{W}_{\text{up}})] \mathbf{W}_{\text{down}}$$ $$G(\mathbf{x})=\operatorname{Softmax}\left(\operatorname{TopK}\left(\left\|\mathbf{x} \mathbf{A}_{\text {gate }}\right\|_{2}, K\right)\right),$$

借鉴ReMoE的非竞争性激活机制: 与此同时,为了解决TopK和Softmax的限制,Wang等人【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】提出了ReMoE,它用一个单独的ReLU函数直接应用于路由器的输出来替换TopK和Softmax。稀疏激活自然地从ReLU中产生,无需任何显式的TopK选择或比较归一化。路由器分数的绝对量级得以保留,使得每个专家的残差贡献可以由路由器的预测进行线性加权,而不是一个归一化的相对偏好。尽管如此,ReMoE仍然保留了一个中心化的外部路由器,从而保留了信息瓶颈和间接优化动态。

$$G(\mathbf{x})=\operatorname{ReLU}(\mathbf{x} \mathbf{G}),$$

Routing-Free MoE的架构整合: 基于以上见解,我们的Routing-Free MoE旨在消除路由机制的所有约束。我们采用AoE的FFN设计(公式6),使用每个专家的内部范数$||xA_{gate}||_2$作为初始专家偏好分数,将激活决策植根于专家自身对输入的响应。由于$||xA_{gate}||_2$是严格非负的,与路由器的xG不同,我们在激活之前引入一个可学习的、针对每个专家的偏置项,并借鉴ReMoE的设计,得到最终的激活权重$G_i(x)$。

$$G_{i}(\mathbf{x})=\operatorname{ReLU}\left(\left\|\mathbf{x} \mathbf{A}_{\text {gate}, i}\right\|_{2}-b_{i}\right).$$

实现专家自激活: 引入了每个专家的偏置项后,那些加权范数低于其自身偏置阈值的专家贡献为零,从而被有效停用。这使得每个专家可以联合调整其$A_{gate,i}$矩阵和$b_i$参数,以有效地调整自己的激活率。我们进一步引入一个全局的后激活阈值$\theta$作为可配置的超参数,用于外部控制整体的稀疏度水平,从而得到每个专家的最终二元激活决策$f_i(x)$。

$$f_i(\mathbf{x}) = \mathbb{1} \{G_i(\mathbf{x}) - \theta \ge 0\}.$$

最终架构: 最终形成了一个完全去中心化的架构,没有任何外部路由器、TopK或Softmax。这使得每个专家都能从内部独立决定自己的激活,让全局激活模式从所有专家的集体自我调整中自下而上地涌现。图1可视化了Routing-Free MoE及其专家的架构。

3.2 训练

统一的负载均衡框架: 训练MoE模型需要同时维持激活率以及平衡的专家和令牌分布。标准做法是硬编码TopK来控制激活率,并通过Token-Choice (TC) 或Expert-Choice (EC) 来解决平衡问题。TC保证了每个令牌的计算量但不能保证专家间的平衡,而EC则硬编码了统一的专家利用率但不能保证每个令牌的计算量,如图3所示。这两种方法都将一个平衡维度作为硬约束,并通过软辅助损失来优化另一个维度。由于Routing-Free MoE消除了所有中心化的路由机制,依赖硬编码TopK的标准激活率和负载均衡策略不再适用。我们通过扩展Fedus等人【索引14,Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,2022】的辅助损失,引入了一个统一的负载均衡框架,以联合鼓励专家间令牌分布的平衡和每个令牌上专家激活的平衡,而无需任何中心化机制。


图 3: 令牌和专家的负载均衡。Routing-Free MoE引入了一个统一的负载均衡框架,通过可配置的插值同时优化专家均衡和令牌均衡。

可微的激活代理: 由于公式10中的二元激活决策$f_i$是不可微的,我们直接使用阈值前的激活权重$G_i(x)$作为专家$E_i$的可微激活代理。我们定义了一组专家E和令牌批次B上的平均激活密度$\rho$及其可微代理$\tilde{\rho}$。在完全均匀的负载下,这两个量都等于目标激活密度$\rho_{\infty}$。

$$\rho(\mathcal{E}, \mathcal{B}) = \frac{1}{|\mathcal{E}||\mathcal{B}|} \sum_{e_{i} \in \mathcal{E}} \sum_{\mathbf{x} \in \mathcal{B}} f_{i}(\mathbf{x}),$$ $$\tilde{\rho}(\mathcal{E}, \mathcal{B})=\frac{1}{|\mathcal{E}||\mathcal{B}|} \sum_{e_{i} \in \mathcal{E}} \sum_{\mathbf{x} \in \mathcal{B}} G_{i}(\mathbf{x}).$$

负载均衡损失的分解: 我们将负载均衡目标分解为两个互补的项。专家均衡损失$L_{EB}$通过惩罚那些持续接收多于或少于平均令牌数的专家,来鼓励令牌在专家间的均匀分布。令牌均衡损失$L_{TB}$通过惩罚那些持续激活多于或少于平均专家数的令牌,来鼓励每个令牌上激活专家的均匀分布。

$$\mathcal{L}_{\mathrm{EB}} = \frac{1}{|\mathcal{E}|} \sum_{e_{i} \in \mathcal{E}} \left( \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} f_{i}(\mathbf{x}) \right) \left( \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} G_{i}(\mathbf{x}) \right).$$ $$\mathcal{L}_{\mathrm{TB}} = \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} \left( \frac{1}{|\mathcal{E}|} \sum_{e_i \in \mathcal{E}} f_i(\mathbf{x}) \right) \left( \frac{1}{|\mathcal{E}|} \sum_{e_j \in \mathcal{E}} G_j(\mathbf{x}) \right) .$$

损失函数的统一与插值: 每个损失都是一个二元不可微项和一个可微代理之间的点积,当两个因子都均匀地等于$\rho_{\infty}$时,损失最小化。这两个目标通过一个可配置的插值参数$\mu \in [0, 1]$进行组合。设置$\mu=1$恢复为纯专家均衡,$\mu=0$恢复为纯令牌均衡。这提供了一个单一的统一框架,可以在两种路由范式之间进行插值,从而可以根据特定的部署需求定制负载均衡。

$$\mathcal{L}_{\mathrm{LB}}=\mu \mathcal{L}_{\mathrm{EB}}+(1-\mu) \mathcal{L}_{\mathrm{TB}}$$

自适应的训练目标: 我们不将辅助损失系数$\lambda$固定为静态超参数,而是遵循Wang等人【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】的方法,采用一个自适应调度,在整个训练过程中驱动经验激活率趋向目标$\rho_{\infty}$。总的训练目标是$L = L_{LM} + \lambda_t L_{LB}$。$\lambda_t$在每个训练步骤t更新,当当前密度$\rho_t$超过目标$\rho_{\infty}$时,$\lambda_t$增加以施加更强的负载均衡压力;当低于目标时,它减少以允许更多的专家激活。步长$\eta$控制这个反馈回路的响应速度。这种形式避免了手动调整$\lambda$的需要,同时确保模型收敛到期望的计算预算,并且与从头开始训练和将预训练的MoE模型改编为Routing-Free MoE都兼容。

$$\mathcal{L}=\mathcal{L}_{\mathrm{LM}}+\lambda_t \mathcal{L}_{\mathrm{LB}},$$ $$\lambda_{t+1}=\lambda_{t}\cdot(1+\eta)^{\mathrm{sign}(\rho_{t}(\mathcal{E},\mathcal{B})-\rho_{\infty})}$$

训练早期的初始化策略: 为了鼓励所有专家在训练的早期预热阶段参与,每个专家的偏置被初始化为1e-6,允许所有专家都被激活,共同探索表示空间并建立初步的专业化,之后再强制稀疏性。随着训练的进行和$\lambda$的增加,稀疏性正则化逐渐加强,驱动激活密度趋向目标$\rho_{\infty}$。到这个阶段,专家们已经形成了不同的角色,从而避免了专家崩溃,确保了稳定有效的阶段过渡。

A4 实验环境

A4 实验结果

主要结果(与标准MoE对比)

架构比较与消融研究
- 与AoE和ReMoE的比较:在S规模上进行的增量消融实验(表2)中,RFMoE的性能显著优于仅去除路由器的AoE模型和仅去除TopK&Softmax的ReMoE模型,证明了RFMoE架构每个组成部分的贡献。
- 低秩投影维度 r 的影响:实验(表3)表明,增加低秩投影维度 r 可以持续提升模型性能(降低困惑度),但收益会递减。为了平衡效率和质量,默认将 r 设置为32,并随隐藏层维度D成比例缩放。

训练动态分析
- 激活密度与损失变化:训练动态可视化(图4)显示,经验激活密度$\rho$在训练初期接近1,随着自适应系数$\lambda$的增长迅速下降至目标值$\rho_{\infty}$并保持稳定。负载均衡损失项$\lambda L_{LB}$在训练初期出现一个短暂的峰值,对总损失产生显著影响,引导梯度下降方向,随后衰减至可忽略的水平,表明负载均衡压力仅在需要时施加。
- 训练稳定性:通过调整学习率$\alpha$(图5)发现,RFMoE比标准MoE表现出更好的训练稳定性。在较高的学习率下(如在S规模下$\alpha=2e-3$),标准MoE会崩溃,而RFMoE依然保持稳定。此外,随着模型规模增加,RFMoE的性能持续提升,而标准MoE的收益有限,凸显了RFMoE更强的可扩展性和对超参数选择的鲁棒性。

负载均衡策略分析
- Token-Balancing vs. Expert-Balancing:实验(表4)比较了不同负载均衡插值参数$\mu$的影响。结果表明,当$\mu=0.5$(即同时考虑令牌均衡和专家均衡)时,模型达到最低的困惑度和最高的吞吐量。这说明两种均衡策略是互补的,共同作用时效果优于任何单一策略。激活热图(图7)也直观地展示了混合策略($\mu=0.5$)能在专家和令牌两个维度上实现更均匀、更一致的激活模式。

部署效率分析
- 专家并行效率:在专家并行的部署环境下,RFMoE由于其去中心化和异步通信的特性,表现出比标准MoE更好的扩展性。理论分析和实验(表5)均表明,随着设备数量M的增加,RFMoE的吞吐量下降幅度远小于标准MoE,并在多设备(M≥2)场景下实现更高的吞吐量,尤其是在对延迟敏感的自回归解码阶段。
- 推理时阈值适应性:通过在推理时调整全局阈值$\theta$(表6,图8),可以在计算成本和模型质量之间进行权衡。实验发现,模型性能对$\theta$的变化具有很强的鲁棒性,即使专家激活数量减少超过20倍(FLOPs下降31%),平均得分下降不到两个百分点。这为在部署时灵活调整计算预算提供了便利。


图表引用:
- 表1: 总结了RFMoE与基线在不同规模和基准上的性能。
- 图2: 展示了各模型在训练过程中的验证集困惑度变化。
- 表2: S规模下的消融实验结果。
- 表3: S规模下低秩投影维度 r 的影响。
- 图4: RFMoE在S规模下的训练动态,包括激活密度、自适应系数和损失的变化。
- 图5: 不同学习率$\alpha$下RFMoE与MoE的训练动态对比。
- 表4: 负载均衡插值参数$\mu$的影响。
- 图7: 不同$\mu$值下专家激活的热图。
- 表5: 专家并行部署下的吞吐量测试。
- 表6 & 图8: 推理时调整全局阈值$\theta$对性能和FLOPs的影响。

A7 补充细节

5.1 逐层密度与全局密度

逐层约束的移除: 当MoE模型中每层的Top-K机制被移除后,一个自然的问题是:目标激活密度$\rho_{\infty}$应该在每层内部强制执行,还是仅在所有专家的全局范围内执行?逐层强制会为每个深度施加统一稀疏性的归纳偏见。相反,全局$\rho_{\infty}$则放宽了这一约束,允许单个层偏离$\rho_{\infty}$,只要总体激活量符合目标并能改善总损失L即可。在S规模上的实验发现,放宽这种归纳偏见带来了显著的性能提升,困惑度从39.44下降到28.74。图6展示了当移除逐层偏见后,Routing-Free MoE在训练中自发形成的专家激活模式。在每层强制相同的稀疏度会抑制那些自然需要激活更多专家才能获益的计算密集型层,同时又在稀疏表示已足够的情况下强制不必要的激活。一旦这个偏见被解除,模型就能自由地自组织成一个更有效、功能上更协调的激活结构。


图 6: 在全局密度目标下,训练过程中各层专家激活的演变。左图以线条显示每层的平均激活,阴影区域为使用1000步移动平均平滑后的四分位距(IQR)。右图显示了最后一个训练步骤的激活分布。模型规模为S。

5.2 令牌均衡与专家均衡

均衡策略的互补性: 本工作的一个关键贡献是凭经验证明了令牌均衡(token-balancing)和专家均衡(expert-balancing)策略可以通过软插值的方式互补地结合,而不是被视为相互排斥。先前的工作【索引62,Mixture-of-experts with expert choice routing,2022;索引40,OLMoe: Open mixture-of-experts language models,2025】记录了专家选择(EC)和令牌选择(TC)在不同配置下表现各异,但我们统一的框架提供了一种自适应地平衡这两个目标的机制。

实验结果与分析: 表4显示,当插值参数$\mu = 0.5$时,模型获得了最低的困惑度和最高的吞吐量,而向任一极端(纯令牌均衡或纯专家均衡)调整都会导致性能下降。令牌均衡允许根据输入特性灵活分配计算资源,而专家均衡确保了专家利用率的统一并鼓励专业化;这两个目标解决了正交的失败模式,并且联合使用比单独使用任何一个都能产生更好的结果。这种互补性在图7中得到了说明。在纯令牌均衡下(图7a),由于缺乏专家均衡,专家间的激活概率差异较大,少数专家被激活的频率远高于其他专家。相反,在纯专家均衡下(图7c),专家的负载在水平方向上更均匀,但激活模式在不同基准测试中差异显著,表明在没有令牌级正则化的情况下,专家激活对输入领域分布过于敏感。当两个目标都激活时($\mu = 0.5$,图7b),激活模式在两个轴向上都更加均匀,并且在不同输入间也更一致。


图 7: 在S规模下,代表性层在不同输入上的专家激活热图。每行显示在给定基准测试上的平均专家激活率。颜色越深表示激活越频繁。

6.1 MoE 基础

MoE的起源与发展: 专家混合模型最初作为局部专家的自适应混合被提出【索引28,Adaptive mixtures of local experts,1991;索引32,Hierarchical mixtures of experts and the em algorithm,1994】,后来被扩展到深度网络中【索引13,Learning factored representations in a deep mixture of experts,2013;索引49,Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,2017】。可解释性研究表明,Transformer中的FFN层通过稀疏激活来捕获知识【索引18,Transformer feed-forward layers are key-value memories,2021;索引5,Knowledge neurons in pretrained transformers,2022;索引6,What is one grain of sand in the desert? analyzing individual neurons in deep nlp models,2019;索引12,Analyzing individual neurons in pre-trained language models,2020;索引24,Finding neurons in a haystack: Case studies with sparse probing,2023】,这为只激活部分参数的MoE设计提供了动力【索引37,Towards a unified view of sparse feed-forward network in pretraining large language model,2023】。现代MoE架构已被大规模部署【索引34,Gshard: Scaling giant models with conditional computation and automatic sharding,2020;索引14,Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,2022;索引64,Designing effective sparse expert models,2022;索引33,Sparse upcycling: Training mixture-ofexperts from dense checkpoints,2022;索引46,Deepspeed-moe: Advancing mixture-ofexperts inference and training to power next-generation ai scale,2022;索引11,GLaM: Efficient scaling of language models with mixture-of-experts,2022】,前沿模型拥有数十亿参数【索引29,Mixtral of experts,2024;索引4,DeepSeekMoE: Towards ultimate expert specialization in mixtureof-experts language models,2024;索引21,Open release of grok-1,2024】。共享专家等结构上的增强【索引20,Mixture of cluster-conditional lora experts for vision-language instruction tuning,2023;索引4,DeepSeekMoE: Towards ultimate expert specialization in mixtureof-experts language models,2024】进一步帮助减少了参数冗余。

6.2 路由机制

路由机制的演变: 传统的MoE依赖于中心化的路由器,即学习到的线性投影后跟TopK选择【索引34,Gshard: Scaling giant models with conditional computation and automatic sharding,2020;索引14,Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,2022】。近期的工作开始朝着放宽路由机制的方向发展。Lv等人【索引38,Autonomy-of-experts models,2025】用专家内部评分取代了路由器;Wang等人【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】用ReLU门控取代了Softmax和TopK。其他方法包括使用向量量化进行专家分配【索引10,On the role of discrete representation in sparse mixture of experts,2024】,使用虚拟共享专家(Wu等人),使用预训练语言模型作为路由器【索引35,Llm-based routing in mixture of experts: A novel framework for trading,2025】,以及三元专家扩展【索引58,Tc-moe: Augmenting mixture of experts with ternary expert choice,2025】。Huang等人【索引27,Harder task needs more experts: Dynamic routing in moe models,2024】提出根据输入难度调整专家数量。Do等人【索引9,Unified sparse mixture of experts,2025】利用一个组合相似性分数的全局TopK选择来统一令牌选择和专家选择路由。

6.3 负载均衡与训练

负载均衡策略: 令牌选择(Token Choice)【索引49,Outrageously large neural networks: The sparsely-gated mixture-of-experts layer,2017;索引14,Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,2022】保证了每个令牌的计算量,但不保证专家间的平衡。专家选择(Expert Choice)【索引62,Mixture-of-experts with expert choice routing,2022】保证了专家负载的平衡,但可能导致次优匹配。研究表明,令牌选择和专家选择的平衡是互补而非互斥的【索引40,OLMoe: Open mixture-of-experts language models,2025】。

训练方法的进展: 近期的进展包括通过动态偏置实现无辅助损失的平衡【索引54,Auxiliary-loss-free load balancing strategy for mixture-of-experts,2024;索引8,Deepseek-v3 technical report,2025】,保持相似性的路由器【索引41,Load balancing mixture of experts with similarity preserving routers,2025】,通过正交性损失实现专家专业化【索引23,Advancing expert specialization for better moe,2025;索引15,Dive into moe: Diversity-enhanced reconstruction of large language models from dense into mixture-of-experts,2025】,以及基础设施层面的调度【索引65,Micromoe: Fine-grained load balancing for mixture-of-experts with token scheduling,2025;索引59,Efficient moe serving in the memory-bound regime: Balance activated experts, not tokens,2025】。为了训练稳定性,Wang等人【索引53,Remoe: Fully differentiable mixture-of-experts with relu routing,2024】通过可微的ReLU门控和自适应正则化解决了TopK选择的非连续性问题。Qiu等人【索引45,Demons in the detail: On implementing load balancing loss for training specialized mixture-of-expert models,2025】为辅助损失提供了实践指导,而He等人【索引25,Expertflow: Optimized expert activation and token allocation for efficient mixture-of-experts inference,2024】和Pan等人【索引42,Dense training, sparse inference: Rethinking training of mixture-ofexperts language models,2024】则解决了推理时的辅助损失问题。Do等人【索引9,Unified sparse mixture of experts,2025】提出了一个统一的评分函数和全局TopK选择,线性组合了TC和EC的相似性分数,同时解决了表示崩溃和令牌丢弃问题,但这在没有路由机制的情况下不适用。我们的方法则寻求在完全去中心化的专家自激活下,统一令牌均衡和专家均衡。

A5 结论

本文提出了一种名为“无路由专家混合模型”(Routing-Free Mixture-of-Experts)的新型MoE架构,它完全摒弃了中心化的路由机制。同时,我们设计了一个统一的自适应负载均衡框架,该框架在训练过程中能够联合优化令牌均衡和专家均衡这两个目标。在三个不同规模和九个基准测试上的实验验证表明,Routing-Free MoE在性能、可扩展性和鲁棒性方面均持续优于基线模型。我们还进一步分析了训练过程中的负载均衡行为和专家激活模式。Routing-Free MoE为构建更灵活、更高效的AI架构开辟了新的道路,我们希望这项工作能激励未来对MoE设计和优化的进一步探索。

A6 附录

A 负载均衡损失

损失函数的设计思想: Fedus等人【索引14,Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity,2022】首次为MoE引入了一个可微的辅助负载均衡损失,定义为缩放点积 $L_{LB} = \alpha \cdot N \cdot \sum_{i=1}^{N} f_i \cdot P_i$,其中$f_i$是分配给专家i的令牌比例,$P_i$是路由器分配给专家i的概率比例。由于$f_i$不可微,梯度仅通过$P_i$流动,而$f_i$作为每步的固定权重。当路由均匀时,即$P_i = f_i = 1/N$时,该损失最小化。我们的专家均衡损失(LEB)和令牌均衡损失(LTB)遵循相同的“均值之积”结构和梯度策略,将其扩展到同时鼓励专家和令牌两个轴上的均匀性,而无需任何中心化路由机制。

$$\mathcal{L}_{\mathrm{LB}}=\alpha \cdot N \cdot \sum_{i=1}^{N} f_{i} \cdot P_{i},$$

损失最小化的证明: 我们证明了LEB和LTB在期望的均匀激活状态$\rho_{\infty}$下被最小化。令$f_i$和$\tilde{g}_i$分别表示每个专家的平均二元激活及其可微代理。在自适应系数$\lambda_t$将平均密度$\frac{1}{|E|} \sum_i f_i$固定在$\rho_{\infty}$的约束下,根据重排不等式,当所有项都相等时,即对所有i都有$f_i = \tilde{g}_i = \rho_{\infty}$时,和$\sum_i f_i \tilde{g}_i$最小化。虽然损失没有写成显式的方差项,但任何不平衡(即过度激活的专家与较大的代理值同时出现)都会使$\sum_i f_i \tilde{g}_i$超过在完美平衡下达到的基线$\rho_{\infty}^2$,因为$f_i$和$\tilde{g}_i$都共同依赖于$G_i(x)$。因此,超过$\rho_{\infty}^2$的部分是二元激活与其代理之间协方差的单调函数,通过一个完全可微的代理提供了隐式的方差惩罚,而无需额外的归一化项。通过在令牌轴上的对称性,同样的论证也适用于LTB。

$$f_i = \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} f_i(\mathbf{x}), \quad \tilde{g}_i = \frac{1}{|\mathcal{B}|} \sum_{\mathbf{x} \in \mathcal{B}} G_i(\mathbf{x})$$

B 部署时的无路由MoE

B.1 专家并行

部署背景: 在大规模部署MoE时,通常会通过专家并行(EP)将专家划分到多个设备上。在这种设置下,我们追踪两种架构的完整关键路径,并分析其在不同情况下的效率。我们考虑一个MoE层分布在M个设备上,每个设备承载N/M个专家,处理一个包含T个令牌的批次。我们采用标准的$\alpha-\beta$模型【索引26,The communication challenge for mpp: Intel paragon and meiko cs-2,1994】,传输n字节数据过一跳的延迟为$\alpha + n/B$,其中$\alpha$是每跳的启动延迟,B是每链路的带宽。

标准MoE的成本分析: 对于标准MoE层,路由器矩阵乘法、Softmax和TopK是严格顺序执行且中心化的,其计算成本与$T \cdot (D+2) \cdot N$成正比。这些操作无法跨设备并行化。之后,通过阻塞式的All-to-All通信将令牌缓冲区发送到目标设备,通信延迟为$t_{A2A} = (M-1)\alpha + \frac{K \cdot T \cdot D \cdot b}{M \cdot B}$。专家FFN在接收到的令牌上并行运行,每个设备的计算成本与$3K \cdot \frac{T}{M} \cdot D \cdot D_{act}$成正比。最后,输出通过另一次All-to-All通信返回。因此,总的每层成本是计算和两次All-to-All通信成本之和。

$$\begin{aligned} \begin{aligned} t_{\text{routing}} &= t_{\text{router}} + t_{\text{Softmax}} + t_{\text{TopK}} \\ &\propto T \cdot (D + 2) \cdot N. \end{aligned} \end{aligned}$$ $$t_{\mathrm{A} 2 \mathrm{A}}=(M-1) \alpha+\frac{K \cdot T \cdot D \cdot b}{M \cdot B}.$$ $$t_{\text{expert}} \propto 3K \cdot \frac{T}{M} \cdot D \cdot D_{\text{act}}.$$ $$\begin{aligned} \begin{aligned} T_{\mathrm{MoE}} &= t_{\mathrm{routing}} + t_{\mathrm{expert}} \\ &+ 2(M-1) \alpha + 2 \frac{K \cdot T \cdot D \cdot b}{M \cdot B} . \end{aligned} \end{aligned}$$

Routing-Free MoE的成本分析: Routing-Free MoE以非阻塞的All-Gather开始,将完整的令牌批次广播出去。每个设备可以立即开始对其本地的N/M个专家进行评分,并将评分与通信流水线化。每个设备的评分成本与$T \cdot D \cdot r \cdot \frac{N}{M}$成正比。对于被激活的令牌-专家对,评分期间计算的$xA_{gate,i}$被直接用于FFN前向传播,没有边际成本。剩余的FFN计算成本与$K_{eff} \cdot \frac{T}{M} \cdot (r+2D) \cdot D_{act}$成正比。激活的输出通过异步点对点消息立即返回,无需同步屏障。总成本是评分、专家计算以及通信成本之和。

$$t_{\mathrm{AG}}=(M-1) \alpha+\frac{(M-1) \cdot T \cdot D \cdot b}{M \cdot B}.$$ $$t_{\text{scoring}} \propto T \cdot D \cdot r \cdot \frac{N}{M},$$ $$t_{\mathrm{expert}}^* \propto K_{\mathrm{eff}} \cdot \frac{T}{M} \cdot(r+2 D) \cdot D_{\mathrm{act}}$$ $$t_{\text{combine}} = \alpha + \frac{K_{\text{eff}} \cdot T \cdot D \cdot b}{M \cdot B}.$$ $$\begin{aligned} \begin{aligned} T_{\text{RFMoE}} &= t_{\text{scoring}} + t_{\text{expert}}^{*} + M \alpha \\ &+ \frac{(M - 1 + K_{\text{eff}}) \cdot T \cdot D \cdot b}{M \cdot B} . \end{aligned} \end{aligned}$$

理论对比与优势: 在同等计算量($K=K_{eff}$)下,Routing-Free MoE的计算成本总是低于标准MoE,且该优势随设备数M的增加而变大。在通信方面,Routing-Free MoE节省了同步屏障的延迟$\Delta\alpha = (M-2)\alpha$,在M≥3时为正。带宽方面的差异$\Delta B$表明,当M < K+1时,Routing-Free MoE更有优势,这在实践中通常成立。在T较大的预填充阶段,Routing-Free MoE有优势;在T=1的解码阶段,延迟主要由启动延迟$\alpha$和顺序计算瓶颈决定,Routing-Free MoE因消除了中心化路由瓶颈而表现尤其出色。

$$\frac{t_{\text{scoring}} + t_{\text{expert}}^*}{t_{\text{routing}} + t_{\text{expert}}} = \frac{rD + \frac{K}{N}(r + 2D)D_{\text{act}}}{(D + 2)M + \frac{K}{N}(3D)D_{\text{act}}}$$ $$\Delta_{B}=\frac{(K+1-M) \cdot T \cdot D \cdot b}{M \cdot B},$$

实验验证: 为了验证理论分析,我们对S规模的模型在专家并行部署下进行了吞吐量评估。如表5所示,标准MoE的吞吐量在从M=1增加到M=2时急剧下降,而Routing-Free MoE则保持了很高的吞吐量(预填充阶段≥97.8%,解码阶段≥95.6%)。在M=2时,Routing-Free MoE的吞吐量已经超过标准MoE,并且优势随M的增加而增大。这证实了Routing-Free MoE的通信和同步优势,及其在延迟敏感的自回归服务场景中的卓越性能。


表 5: 专家并行下每个设备的预填充和自回归解码的每秒令牌吞吐量。预填充处理T=1,024个令牌的单次前向传播;解码自回归生成128个令牌,每步T=1。K=3表示标准MoE的TopK,Keff=3表示Routing-Free MoE。所有运行使用批大小为1,输入令牌从OpenWebText随机采样,bfloat16精度,并报告3次预热后10次重复的平均值。

B.2 阈值适应性

推理时期的灵活性: 全局后激活阈值$\theta$的设计提供了一种轻量级的、在推理时权衡计算与模型质量的机制。由于无路由训练动态鼓励每个专家果断地决定其激活状态,其内部分数要么远高于$\theta$,要么远低于$\theta$,很少在边界附近徘徊。因此,在推理时对$\theta$进行适度扰动只会影响那些低置信度、贡献边际的激活,从而赋予模型对阈值校准错误的内在鲁棒性。

实验结果与分析: 如表6所示,在S规模模型上对$\theta$进行扫描,结果显示尽管激活密度发生巨大变化,但模型性能非常稳定。将有效激活密度$\rho_{eff}$从100%降低到4.3%(专家激活减少超过20倍,FLOPs下降31%),平均分数下降不到两个绝对百分点。这种鲁棒性是因为大多数专家分数远离决策边界,调整$\theta$只影响少数不确定的、影响小的激活。即使在$\theta$极低、几乎所有专家都被激活时,模型也未出现梯度爆炸或输出不稳定的问题,因为激活分数$G_i(x)$直接缩放专家输出,低分数的专家贡献也小。图8的各基准分解显示,这种总体稳定性并非假象,大多数基准对$\theta$不敏感。这些结果凸显了无路由设计的一个实际优势:$\theta$作为一个透明的调节旋钮,允许从业者在部署时平衡准确性和效率,而无需重新训练。


表 6: 在S规模下,全局阈值θ对下游基准平均值(Avg.)和估计FLOPs的影响。ρeff表示在θ下的经验平均激活密度。†在θ ≥ 1.5时的平均值是由SST-2和OBQA的异常峰值驱动的(见图8)。


图 8: 在S规模下,各基准测试在不同θ下的准确率。HellaSwag、QQP、QNLI几乎对阈值不敏感,而PIQA、ARC-easy、ARC-challenge和Winogrande在ρeff ≈ ρ∞附近达到最佳性能。SST-2和OBQA在较大的θ处急剧上升,推高了平均值。

C 统计显著性分析

分析方法: 为了支持Routing-Free MoE持续优于标准MoE基线的结论,我们对表1报告的基准测试结果进行了正式的统计分析。每个模型变体在三个规模上对九个基准进行了评估,产生了27个成对观测。我们计算每对的得分差异$\Delta_i$,并检验单边零假设$H_0: \mu_{\Delta} \le 0$。我们应用了单边配对t检验,并通过Cohen's d量化效应大小。

分析结果: 如表7所示,在每个规模上,平均改进都是正的,Cohen's d表明存在小到中等的一致效应。当汇集所有三个规模的观测(n=27)时,单边配对t检验得出t=1.858,p=0.037,在$\alpha=0.05$的水平上拒绝了零假设。此外,Routing-Free MoE在所有规模上都实现了持续更低的困惑度。综合来看,统计分析支持Routing-Free MoE相对于标准MoE基线产生了可靠且显著的改进。


表 7: 比较Routing-Free MoE与标准MoE基线在9个基准测试上的配对统计检验。p值为单边。

D 补充讨论

D.1 负载均衡

关于无辅助损失的负载均衡: 近期有研究探索了无辅助损失的负载均衡方法【索引8,Deepseek-v3 technical report,2025;索引22,Deepseek-r1 incentivizes reasoning in llms through reinforcement learning,2025】。本文中,我们的基线和Routing-Free MoE都采用了辅助损失,以确保在不同路由架构间进行受控比较。由于无辅助损失的均衡方法与路由机制本身是正交的,原则上可以应用于所有模型。为了避免混淆变量,并集中于本文的核心贡献——路由和无路由专家选择的架构区别,我们没有集成这些技术,将其留作未来工作。

关于专家选择路由: 由于本文比较的所有架构都基于令牌选择(Token Choice)负载均衡范式,这是MoE文献中的主流设置【索引40,OLMoe: Open mixture-of-experts language models,2025】,我们没有将专家选择(Expert Choice)路由作为直接基线。相反,我们通过可配置的$\mu$-插值,在统一的框架内平滑地覆盖了从令牌均衡到专家均衡的行为谱系。这使得我们能够在内部进行彻底的均衡策略比较,而不会引入完全不同的分配范式作为混淆因素。

D.2 逐层与全局密度

激活模式的涌现: 在图6中,没有任何明确监督的情况下,模型发展出一种引人注目的三阶段结构:早期层激活率高但迅速下降且方差大,中间层激活率缓慢单调上升且方差小,晚期层激活率和方差都急剧上升。这种涌现的模式与LLM中层级功能异质性的可解释性发现非常吻合【索引18,Transformer feed-forward layers are key-value memories,2021;索引16,Higher layers need more lora experts,2024;索引55,Do llamas work in english? on the latent language of multilingual transformers,2024;索引30,Spin: Sparsifying and integrating internal neurons in large language models for text classification,2024】。我们认为,全局密度约束带来的性能增益正是源于移除了逐层的归纳偏见,使得模型能够自由地自组织成一个更有效、功能上更协调的激活结构。

E 补充实验结果

下表展示了标准MoE、AoE、ReMoE和Routing-Free MoE在不同配置下的性能。每个模型都在OpenWebText上进行了训练。标记为n/a的条目表示该字段不适用于相应的架构设计。带下划线的结果表示实验中出现了梯度爆炸。


表 8: 标准MoE、AoE、ReMoE和Routing-Free MoE在各种配置下的性能。每个模型都在OpenWebText【索引19,Openwebtext corpus,2019】上训练。标记为n/a的条目表示该字段不适用于相应的架构设计。带下划线的结果表示实验中出现了梯度爆炸。