文章标题: 扩展嵌入优于扩展专家在语言模型中的表现
作者/机构: Hong Liu, Jiaqi Zhang∗, Chao Wang, Xing Hu, Linkun Lyu, Jiaqi Sun, Xurui Yang, Bo Wang, Fengcun Li, Yulei Qian, Lingtong Si, Yerui Sun, Rumei Li, Peng Pei∗, Yuchen Xie, Xunliang Cai / Meituan LongCat Team
本文探讨了在大型语言模型中,除了主流的混合专家(Mixture-of-Experts, MoE)架构外,另一种正交的稀疏化扩展维度——嵌入扩展(embedding scaling)。随着模型规模和稀疏度的增加,MoE架构面临着性能收益递减和系统级瓶颈(如通信开销和内存带宽压力)的问题。与此相对,嵌入层提供了一个被忽视的、固有的稀疏维度,其查找复杂度为O(1),允许在不增加路由开销的情况下进行大规模参数扩展。
尽管近期对扩展嵌入参数的兴趣渐增,但仍有几个关键挑战未被充分探索:1)专家参数和嵌入参数之间的扩展效率比较尚不明确;2)嵌入扩展的系统性约束(如参数预算、词汇量大小、初始化方案、模型宽度与深度的权衡)尚未被系统地描述;3)在不同情况下,哪种嵌入扩展策略更有效率尚不清楚;4) 扩展嵌入对端到端推理性能的影响及其优化仍未得到充分分析。
为解决这些挑战,本技术报告提出了一个稳健的嵌入扩展框架,其主要贡献如下:
* 嵌入扩展 vs. 专家扩展的比较:通过全面的扩展实验,本文确定了在特定场景下,嵌入扩展相比增加专家数量能达到更优的帕累托前沿(Pareto frontier),为模型扩展提供了高效的替代方案。
* 架构因素影响分析:本文系统地建立了决定嵌入扩展效果的全套架构因素,包括集成时机、参数预算、哈希碰撞、超参数设置、嵌入初始化,以及模型宽度和深度的影响。此外,研究发现N-gram嵌入提供了最稳健的可扩展性。
* 推理效率与系统优化:本文证明N-gram嵌入能显著减少MoE层的I/O瓶颈,尤其是在与推测解码(speculative decoding)结合以最大化硬件利用率时。为解决随之而来的嵌入开销,本文提出了专门的N-gram缓存和同步内核,确保激活参数的减少能直接转化为更低的延迟和更高的吞吐量。
* 模型验证:基于以上发现,本文从头训练并开源了LongCat-Flash-Lite模型,该模型总参数量为68.5B,激活参数量约2.9B~4.5B。评估表明,该模型不仅超越了参数量相当的MoE基线模型(验证了将超过30B参数分配给嵌入而非专家的优越性),而且在智能体(agentic)和编码任务上,其性能与同等规模的现有模型相比也极具竞争力。
模型架构。为了扩展嵌入参数,我们采用了在【索引9,Canine: Pre-training an efficient tokenization-free encoder for language representation,2022,Transactions of the Association for Computational Linguistics】【索引1,Over-tokenized transformer: Vocabulary is generally worth scaling,2025,arXiv】【索引10,Byte latent transformer: Patches scale better than tokens,2025,Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics】中介绍的N-gram嵌入,它通过扩展一个无词汇表的n-gram嵌入表来增强嵌入模块的表示能力。具体来说,对于序列中的第i个token $t_i$,其增强后的嵌入$e_i$计算如下:
$$e_i = \frac{1}{N} (E_0(t_i) + \sum_{n=2}^{N} E_n(\mathcal{H}_n(t_{i-n+1}, ..., t_i))),$$其中$E_0 \in R^{V_0 \times D}$是原始的基础嵌入表,隐藏维度为D;$E_n \in R^{V_n \times D}$是扩展的嵌入表;N是最大的n-gram阶数;$H_n$是哈希映射函数。我们使用多项式滚动哈希函数:
$$\mathcal{H}_n(t_{i-n+1}, ..., t_i) = (\sum_{j=0}^{n-1} t_{i-j} * V_0^j) \% V_n.$$N-gram嵌入的最终形式。为了进一步增强模型的表达能力并减少哈希碰撞,【索引9,Canine: Pre-training an efficient tokenization-free encoder for language representation,2022,Transactions of the Association for Computational Linguistics】【索引1,Over-tokenized transformer: Vocabulary is generally worth scaling,2025,arXiv】将每个n-gram嵌入表分解为K个具有不同词汇量大小的子表。【索引1,Over-tokenized transformer: Vocabulary is generally worth scaling,2025,arXiv】进一步引入了额外的线性投影,将输出映射回原始的嵌入空间。N-gram嵌入的最终版本(在【索引1,Over-tokenized transformer: Vocabulary is generally worth scaling,2025,arXiv】中也称为Over-Encoding)如图1所示,可表示为:
$$e_i = \frac{1}{(N-1)K+1} \left( E_0(t_i) + \sum_{n=2}^{N} \sum_{k=1}^{K} W_{n,k} E_{n,k} (\mathcal{H}_{n,k}(t_{i-n+1}, ..., t_i)) \right),$$其中$E_{n,k} \in R^{V_{n,k} \times D/((N-1)K)}$是一个子表,$W_{n,k} \in R^{D \times D/((N-1)K)}$是线性投影矩阵。通过将子表的隐藏维度设置为与子表数量成反比,该设计确保了N-gram嵌入的参数量相对于N和K保持不变。
图 1: N-gram嵌入层的架构【索引1,Over-tokenized transformer: Vocabulary is generally worth scaling,2025,arXiv】。每个token的嵌入都由N-gram嵌入分支进行增强。
本节介绍了我们关于嵌入扩展与专家扩展比较的实证研究结果。
实验设置。我们将N-gram嵌入集成到Longcat-Flash架构【索引12,Longcat-flash technical report,2025,arXiv】中,并通过从头开始预训练,在不同的激活参数预算(280M、790M和1.3B)下进行扩展实验。为了严格比较不同的扩展策略,我们建立了一个框架,将通过N-gram嵌入进行扩展与通过扩展专家进行对比。具体来说,对于N-gram嵌入扩展,我们首先训练基础稀疏度从35%到98%不等的MoE模型,并从特定的稀疏度水平开始逐步加入N-gram嵌入。关键在于,在每个稀疏度水平上,N-gram嵌入模型都与一个参数量相当的MoE基线模型配对,后者通过增加专家数量来达到相同的总参数量。所有模型都在一个300B tokens的语料库上进行预训练。我们通过监测训练损失以及在两个精心构建的中英文验证集上的验证损失来评估模型性能。
关键发现。一个关键的发现是,N-gram嵌入的扩展动态根据基础模型的稀疏度水平而显著不同。图2展示了三种不同的扩展轨迹:标准的MoE基线(蓝色)、应用于低参数比例基础模型的N-gram嵌入(绿色),以及应用于高参数比例基础模型的N-gram嵌入(红色)。该图表明,MoE扩展曲线遵循严格的对数-线性关系。这意味着在低比例区域,专家数量的微小增加会带来损失的大幅降低。相反,在较高比例下,要实现同等的损失降低,需要大幅增加专家参数。因此,当在低参数比例时引入N-gram嵌入,其扩展优势无法超过简单增加专家数量所带来的收益。相比之下,在高稀疏度水平上,N-gram嵌入的优势变得更为显著。这一观察引出了关于整合N-gram嵌入的设计原则。
总结:N-gram嵌入应在专家数量超过其“最佳点”时引入。
图 2: MoE模型和N-gram嵌入(NE)模型的扩展曲线。横轴是总参数与激活参数(280M)的比率。右侧图的坐标轴转换为对数尺度。对于两条NE曲线,我们用虚线连接到相应的无NE的基础MoE模型。
观察与结论。仔细观察图2可以发现蓝色和红色曲线之间有一个明显的交点:随着参数比例的增加,N-gram嵌入的性能优势逐渐减弱,并最终被MoE基线超越。这表明,当模型将其参数预算的过大比例分配给N-gram嵌入时,其性能会劣于参数量相当的MoE基线。这一观察与同期工作Engram【索引11,Conditional memory via scalable lookup: A new axis of sparsity for large language models,2026,arXiv】中得出的结论一致,该工作认为损失随N-gram嵌入比例的变化呈U形扩展曲线。在图2中,交点略高于20的比例。此时,N-gram嵌入参数约占总参数量的50%(因为基础MoE模型的比例为12)。因此,我们从这一现象中得出第二个原则。
总结:分配给N-gram嵌入的总参数预算不应超过50%。
问题与分析。在N-gram嵌入中,哈希碰撞迫使单个嵌入向量叠加多个不同n-gram的语义。这种由碰撞引起的歧义阻碍了学习效率,从而降低了模型性能。我们发现,选择合适的词汇量大小对于缓解高碰撞率至关重要。在训练过程中,我们观察到N-gram嵌入在特定词汇量大小时表现出异常高的哈希碰撞率,尤其是在2-gram哈希中。为了探究其内在机制,我们进行了双重分析,重点关注:(1) 词汇命中率,定义为预训练语料库中至少被激活一次的词汇条目比例;(2) 哈希碰撞,量化了由于模运算索引导致的唯一token表示的损失。
图 3: (a) 不同n-gram的词汇命中率。(b) 不同词汇量大小时2-gram哈希的碰撞次数。为清晰起见,采样点在词汇量大小的整数倍附近更密集,在其他地方更稀疏。
实验与发现。对于命中率分析,我们将n-gram词汇量大小设置为基础词汇量(128k)的30倍。对于碰撞分析,我们在基础词汇量大小的30倍到33倍之间采样了一系列词汇量大小,并为每种配置计算了100个训练序列的n-gram碰撞次数。结果详见图3。图3a显示,2-gram哈希的命中率逐渐增加,而更高阶的n-gram哈希则迅速收敛到1.0的命中率。独立于命中率趋势,我们在图3b中观察到,2-gram哈希的碰撞次数与词汇量大小呈现出强烈的非线性相关性。一个显著的模式是:当词汇量大小接近基础词汇量大小的整数倍时,碰撞次数会明显飙升。无论n-gram词汇量大小是否为素数,这种现象都持续存在。综合这些观察,图3b为配置N-gram嵌入提供了另一个设计原则。
总结:N-gram嵌入的词汇量大小应显著偏离基础词汇量大小的整数倍,以防止哈希碰撞。
超参数N和K的影响。我们现在研究模型性能对N-gram嵌入内部配置的敏感性,即n-gram阶数N和子表数量K。关于第2节中定义的n-gram阶数N,增加N可以使N-gram嵌入捕捉到更丰富的上下文语义,理论上能产生具有更强表示能力的嵌入向量。然而,这也导致了n-gram词汇上极其稀疏的分布,因为高阶n-gram出现频率较低。这种稀疏性显著加剧了学习有效嵌入的挑战。关于子表数量K,该参数控制应用于每个n-gram的不同哈希函数的数量,从而大幅降低哈希碰撞的概率。然而,经验证据表明,将K增加到超过某一阈值后,收益会递减。
实验结果。我们使用790M激活参数模型(对应图6a中红色曲线的初始数据点),对N和K的各种组合进行了消融研究。结果总结在图4中。很明显,当N和K都设置为最小值(N=2,K=1)时,模型表现出显著较差的性能。相反,当N≥3且K≥2时,不同配置之间的性能差异变得相对较小,表明模型在此范围内对超参数选择是稳健的。根据经验,我们观察到将N设置在3到5的范围内能持续产生接近最优的性能。
图 4: 不同N和K组合下的训练和验证损失比较。
图 5: 模块输出与其对应恒等分支的L2范数的逐层分析,以及这些范数的比率。每个快捷层包含两个子层,用后缀0和1表示。
问题发现。在我们的初步实验中,我们观察到嵌入模块的次优初始化会严重阻碍N-gram嵌入的效能,使其无法发挥全部潜力。为了验证这一假设,我们重新审视了一个早期的普通实验,其配置与图2相同,但未对嵌入模块进行任何特定调整。在300B tokens的预训练后,我们计算了所有层中每个模块输出及其相应残差分支(恒等路径)的L2范数,并将这些范数及其比率绘制在图5中。
信号淹没现象。图5揭示了一个关键差异:第一个注意力模块输出的L2范数比相应恒等分支的L2范数大一个数量级(约10倍),而恒等分支的输出本质上就是嵌入模块的输出。这表明,在求和时,注意力输出主导了残差流,实际上“淹没”了嵌入信号。尽管N-gram嵌入中子表和投影矩阵的标准初始化确保了初始输出范数与基线匹配,但一旦训练开始,这种信号抑制现象会显著加剧,导致N-gram嵌入模型性能大幅下降。
解决方案:嵌入放大。为了缓解这个问题,我们探索了两种策略:
* 缩放因子:在嵌入输出上引入一个缩放因子(通常为D),以确保其对前向传播有足够的贡献。
* 归一化:在与残差分支合并前,对嵌入输出应用LayerNorm。这同样能放大嵌入的贡献,因为LayerNorm在训练早期会强制输出为单位方差。
效果。这两种技术最初由【索引13,Spike no more: Stabilizing the pre-training of large language models,2025,arXiv】提出,其主要目标是增加残差分支的方差以限制反向传播梯度并稳定训练。在我们的情境中,虽然我们没有观察到对训练稳定性的显著影响,但这些方法——我们统称为“嵌入放大”(Embedding Amplification)——显著提升了N-gram嵌入的性能。在我们的实验中,应用嵌入放大比普通基线取得了更好的性能,训练损失和两个验证损失均持续降低了0.02。
研究问题。本节研究N-gram嵌入扩展的有效性如何随着模型宽度的增加而演变。
实验与发现。我们在两个更大的激活规模(790M和1.3B参数)下进行了一系列扩展实验,模型深度保持不变(10个快捷层),仅改变宽度(隐藏大小和模块维度)。图6展示了由此产生的扩展曲线。我们的分析揭示了两个关键趋势:
* 当以适当的比例引入时,与参数量相当的MoE基线相比,N-gram嵌入总能产生更低的损失。随着N-gram嵌入参数比例的增加,这种优势逐渐减弱,这与图2中观察到的行为一致。
* 关键的是,随着模型宽度(激活大小)的增加,N-gram嵌入曲线与MoE曲线的交点系统地向更高的总参数与激活参数比率移动。具体来说,对于280M激活大小,一旦比率超过30,N-gram嵌入的性能始终不如其MoE对应模型。在790M时,N-gram嵌入仅在英文验证集上于此比率下表现不佳,而在所有其他指标上仍保持优势。值得注意的是,在1.3B激活大小时,即使比率高达50,N-gram嵌入仍保持明显优势。
图 6: (a) 790M激活大小下的扩展曲线。(b) 1.3B激活大小下的扩展曲线。
结论。这些发现表明,更宽的模型为有效利用N-gram嵌入提供了显著扩展的机会窗口。因此,图6引出了以下结论:对于固定的层数。
总结:增加模型宽度为N-gram嵌入带来更大的优势。
研究问题与假设。我们现在研究模型深度对N-gram嵌入扩展有效性的影响。对于预归一化(pre-normalization)架构,通过恒等连接(残差分支)传递的N-gram嵌入的贡献会随着网络深度的增加而固有地减弱,因为通过跳跃连接传播的信号携带的来自早期层级的直接信息越来越少(如图5所示)。
实验设计。为了验证这一假设,我们使用更深层的架构进行了扩展实验,基于我们的1.3B激活参数配置。具体来说,我们训练了20层和40层的模型,同时在所有测试深度上精心保持了N-gram嵌入参数的一致相对比例(约占总参数的50%)。
实验结果。图7b清晰地比较了在不同深度下,N-gram嵌入与MoE基线之间的性能差距。一个显著的观察结果是:当模型深度超过20层时,N-gram嵌入相对于基线的性能优势出现了明显的收缩。这一趋势与增加模型宽度的效果形成对比,如图7a所示,增加宽度时性能差距明显扩大。
总结:增加模型深度会削弱N-gram嵌入的相对优势。
补充说明。需要注意的是,当前大多数实用的语言模型通常在40个快捷层(相当于80个传统层)以下运行。鉴于我们发现增加宽度能持续放大N-gram嵌入的优势,并且其在40层时仍表现稳健,因此在这些常见的架构深度内扩展n-gram嵌入很可能会带来更大的性能增益。
图 7: 与基线相比,具有N-gram嵌入的模型在不同(a)模型宽度和(b)模型深度下的损失降低情况。
参数重分配的优势。N-gram嵌入机制有效地将参数从MoE层重新分配到嵌入空间。这种架构转换在保持总模型参数不变的同时,减少了MoE层内的激活参数数量——这在具有大量token的内存I/O受限的解码场景中尤其有利。此外,嵌入层的增大不会带来延迟惩罚,因为嵌入查找的计算成本与输入token的数量成正比,而不是嵌入参数的总数。
图 8: (a) LongCat-Flash-Lite与LongCat-Flash-Lite-Vanilla在不同批量大小下的激活专家数量。(b) LongCat-Flash-Lite在8xH800-80G上,输入序列长度4K,输出序列长度1K的解码性能。中间部分为视觉连续性而设。LongCat-Flash-Lite的模型信息在第6节中描述。
与推测解码的协同作用。为了充分利用减少激活参数所带来的效率提升,通过大批量大小来最大化硬件利用率至关重要(如图8a所示)。这一要求与推测解码(speculative decoding)形成了天然的协同作用。多步推测解码有效地扩大了“有效批量大小”,从而将参数稀疏性的理论优势转化为切实的推理加速。
挑战。尽管将参数从专家重分配到N-gram嵌入有效地减少了MoE层的内存I/O,但与标准嵌入层相比,它引入了额外的I/O、计算和通信开销。因此,最小化N-gram嵌入的延迟和资源消耗对于整体系统效率至关重要。此外,现代推理框架中固有的动态复杂调度机制使得预先确定前向传播的确切token序列变得困难,这给N-gram嵌入查找的优化带来了复杂性。
N-gram缓存与定制内核。为了应对这些挑战,我们引入了N-gram缓存(N-gram Cache),这是一种受KV缓存设计原则启发的专门缓存机制。我们实现了定制的CUDA内核,直接在设备上管理N-gram ID,从而促进了与各种推理优化技术的复杂调度逻辑的低开销同步。这种设计显著提高了N-gram嵌入的计算效率。
针对推测解码的优化。在推测解码场景中,草稿模型通常层数较少,延迟也低得多,这使得N-gram嵌入的开销相对更为突出。为了缓解这一问题,我们提出了两种互补的优化策略:(1)为草稿模型采用传统嵌入层,以绕过计算成本更高的n-gram查找;(2)在草稿生成阶段缓存n-gram嵌入,以消除后续验证步骤中的冗余计算。这些优化共同降低了推测推理设置下的延迟并提高了吞吐量。
潜在协同作用。除了硬件效率之外,我们认为N-gram嵌入结构本身编码了丰富的局部上下文和token共现信息,这为与推测解码的协同作用提供了尚未探索的可能性。我们确定了两个有前景的方向,可以利用N-gram嵌入的语义丰富性来进一步加速推理。
基于N-gram嵌入的草稿生成。由于N-gram嵌入聚合了前面N-1个token的信息,它隐式地捕捉了短程依赖关系。我们目前正在探索将N-gram嵌入重新用作超快速草稿模型的架构。虽然一个主要候选方案是在N-gram嵌入输出上直接附加一个轻量级的线性投影,但我们正在研究更广泛的设计空间,以充分利用捕获的局部上下文进行高效的token预测。
早期拒绝。N-gram嵌入表示也可以作为由外部草稿模型生成的token的语义一致性检查(或置信度估计器)。在N-gram嵌入下导致低概率匹配的草稿token可能会在进入目标模型昂贵的验证阶段之前被“早期拒绝”。理论上,这种剪枝策略将减少验证步骤的工作量,为进一步优化端到端延迟提供了一条途径。
如第1节所述,逐层嵌入(Per-Layer Embedding, PLE)是另一种通过在各层分配嵌入参数来扩展参数的方法。本节直接比较了N-gram嵌入和PLE,并介绍了一种集成这两种方法的尝试。
PLE的实现。PLE在【索引14,Gemma 3n documentation,2024,ai.google.dev】【索引6,Stem: Scaling transformers with embedding modules,2026,arXiv】中被应用和进一步研究。PLE直接用嵌入输出替代SwiGLU模块中上投影矩阵的输出,这是我们在实验中注入嵌入信息最有效的方法。令$x_i^{(l)}$为第l层FFN模块的第i个输入向量,带有PLE的FFN输出可以形式化如下:
$$\text{FFN}^{(l)}(x_i) = W_d^{(l)}(\text{SiLU}(W_g^{(l)}x_i^{(l)}) \odot E_0^{(l)}(t_i))$$其中$W_d^{(l)}$和$W_g^{(l)}$分别表示第l层的下投影和门控投影矩阵,$E_0^{(l)}$是第l层的嵌入表,其形状与公式1中的基础嵌入表相同。
PLNE的提出。在PLE的基础上,我们提出了逐层N-gram嵌入(Per-Layer N-gram Embedding, PLNE),这是一种新颖的扩展,它在每一层用N-gram嵌入输出替换基础嵌入输出,从而在MoE框架内实现更灵活和更有针对性的参数扩展。PLNE可以写成:
$$\text{FFN}^{(l)}(x_i) = W_d^{(l)} (\text{SiLU}(W_g^{(l)} x_i^{(l)}) \odot e_i^{(l)})$$其中$e_i^{(l)}$根据公式3计算,但使用特定于该层的嵌入表和投影矩阵。
实验设置与结果。对于PLE和PLNE,嵌入信息仅被注入到每个快捷层中密集子层的MLP内部。由于每个PLNE层除了基础词汇外还包含一个n-gram词汇,因此它每层引入的参数比PLE更多。为了避免与层位置相关的混淆因素,我们没有在等效总参数量下直接比较PLE和PLNE。相反,我们评估了PLE和PLNE相对于它们各自参数量相当的N-gram嵌入(NE)基线的性能,如图9所示。
分析与结论。图9显示,PLE的性能相对于N-gram嵌入较差,而PLNE相对于NE产生了边际改进。我们将前者的原因归结为N-gram嵌入比标准嵌入具有更高的学习效率。因此,我们将扩展分析集中在PLNE上。然而,在后续涉及增加模型宽度或深度的实验中,PLNE未能表现出一致的优势,在大多数情况下与NE表现相当。考虑到PLNE固有地增加了激活参数(由于在每层增加了一个大的投影矩阵),我们选择不在更大规模的实验中采用PLNE。尽管如此,这种方法仍值得进一步研究——特别是关于如何在各层之间优化分配嵌入参数,例如是应将它们集中在少数特定层还是均匀分布在整个网络中。
图 9: 在790M激活参数设置下,N-gram嵌入(NE)、PLE和PLNE的损失比较。注意,PLE和PLNE是在两个不同的参数规模上与NE进行比较。
模型信息
* 架构: LongCat-Flash-Lite采用与Longcat-Flash【索引12,Longcat-flash technical report,2025,arXiv】相同的架构,共有14个快捷层。总参数量为68.5B,每个token根据上下文动态激活2.9B到4.5B的参数(由于存在零专家)。每个快捷层中的MoE模块包含256个FFN专家和128个零专家,每个token选择12个专家。
* 嵌入模块: LongCat-Flash-Lite包含31.4B的N-gram嵌入参数,占总参数的46%。
* 硬件配置: 实验在8x H800-80G GPU上进行。
* 软件配置: 实现了YARN【索引15,Yarn: Efficient context window extension of large language models,2023,ArXiv】以支持长序列。
训练数据
* LongCat-Flash-Lite遵循与LongCat-Flash-Chat【索引12,Longcat-flash technical report,2025,arXiv】相同的数据配方。首先在11T tokens上进行预训练,序列长度为8k;接着进行1.5T tokens的中期训练,序列长度扩展到128k;最后在SFT数据上进行训练。为了支持扩展上下文,我们在32k序列长度的训练阶段实现了YARN,使LongCat-Flash-Lite能够处理长达256k tokens的序列。
基线模型
* 我们训练了一个名为LongCat-Flash-Lite-Vanilla的MoE基线模型,其参数与LongCat-Flash-Lite完全相同,方法是将所有N-gram嵌入参数转换为额外的专家。两个模型采用相同的训练策略和数据配方。
在整个训练过程中,LongCat-Flash-Lite始终比LongCat-Flash-Lite-Vanilla取得了更低的训练损失,如图10所示。为了评估下游任务的性能,我们在涵盖三个核心能力领域的基准上对两个模型进行了评估:
如表1所示,LongCat-Flash-Lite在所有三个领域的大多数基准测试中,都比LongCat-Flash-Lite-Vanilla表现出显著的性能提升。这些发现验证了我们之前的分析:当稀疏度达到足够高的水平时,通过N-gram嵌入策略性地扩展总参数——同时保持嵌入参数的最佳比例——始终优于仅仅增加专家数量的方法。
图 10: LongCat-Flash-Lite 和 LongCat-Flash-Lite-Vanilla 的平滑训练损失曲线。在420B tokens处的损失下降与批量大小增加有关。
表 1: LongCat-Flash-Lite 和 LongCat-Flash-Lite-Vanilla 基础模型对比。
对话模型的评估涵盖了几个核心能力:智能体工具使用任务、智能体编码任务、通用领域任务和数学推理任务。评估使用的基准包括:
表2展示了LongCat-Flash-Lite在各种基准类别上的全面评估结果,并与Qwen3-Next-80B-A3B-Instruct、Gemini 2.5 Flash-Lite和Kimi-Linear-48B-A3B进行了比较。LongCat-Flash-Lite在核心能力维度上表现出卓越的参数效率和有竞争力的性能。
表 2: LongCat-Flash-Lite 与其他模型的比较。标有 * 的数值来源于公开报告。
背景与挑战。正如第4节所讨论的,该模型的极端激活稀疏性需要一个大的有效批量大小来完全饱和GPU内存带宽。为实现这一点,我们使用“Eagle3”【索引37,Eagle-3: Scaling up inference acceleration of large language models via training-time test,2025,arXiv】并采用“3步推测解码策略”来部署模型。与【索引38,Eps-moe: Expert pipeline scheduler for cost-efficient moe inference,2025,arXiv】和【索引12,Longcat-flash technical report,2025,arXiv】类似,我们采用宽专家并行(EP)和单批次重叠(SBO)来加速推理。虽然上述优化成功地扩大了有效批量大小,但模型的轻量级特性将瓶颈转移到了内核启动开销上,使得维持高GPU占用率变得具有挑战性。为了解决这个问题并最小化端到端延迟,我们实现了以下系统级优化:
内核优化。
* 内核融合 (Kernel Fusion):我们应用了广泛的内核融合来减少执行开销和内存流量。具体来说,所有张量并行组(TP-group)内的通信操作都与随后的细粒度内核融合(例如,AllReduce + Residual Add + RMSNorm, AllGather + Q-Norm + KV-Norm, 以及 ReduceScatter + RMSNorm + Hidden State Combine)。对于量化模型,我们将每个激活量化步骤集成到现有算子中,包括上述通信融合内核和SwiGLU组件。此外,路由器logits的处理(Softmax + TopK + 路由器缩放)和零专家的选择被整合到一个统一的内核中。
* 优化的注意力组合 (Optimized Attention Combine):在解码阶段,我们采用了一种splitkv-and-combine策略。当KV分割数很高时,组合操作可能会产生显著的延迟,有时甚至与计算本身相当。通过优化组合内核,我们有效地将其延迟降低了50%。
程序化依赖启动 (PDL)。我们利用PDL(Programmatic Dependent Launch)【索引39,Programmatic dependent launch and synchronization,2026,NVIDIA】来允许依赖的内核通过触发早期启动来重叠其执行。这种机制不仅消除了连续内核之间的间隙,还提高了SM(Streaming Multiprocessor)的利用率。
结果。基于这些优化,我们实现了图8b所示的卓越推理性能。
在本技术报告中,我们对大型语言模型中嵌入扩展的可扩展性和效率进行了全面研究。通过对架构约束和比较扩展定律的系统性分析,我们证明了在特定情况下,与增加专家数量相比,扩展嵌入能够产生更优的帕累托前沿。同时,我们提出的系统优化措施,包括N-gram缓存和同步内核,有效解决了相关的I/O瓶颈。为了验证这些发现,我们推出了LongCat-Flash-Lite,一个拥有68.5B参数的MoE模型,其中包含超过30B的N-gram嵌入参数。该模型不仅超越了参数量相当的MoE基线,还在智能体和编码任务中表现出有竞争力的性能,从而为未来的模型扩展建立了一个稳健且高效的框架。