Scaling Laws, Carefully
Scaling Laws, Carefully
发表时间: 2026-06 · Blog post by Lilian Weng (lilianweng.github.io)
作者/机构: Lilian Weng
A1 主要贡献
本文深入探讨了深度学习领域中一项至关重要的经验性发现——缩放法则(Scaling Laws)。其核心观点是,模型的训练损失 $L$ 会随着模型大小 $N$、数据集大小 $D$ 和计算量 $C$ 的增加而可预测地下降,且这种下降遵循幂律曲线,在对数-对数坐标图上表现为一条直线。缩放法则提供了一个描述计算量、损失、模型大小和数据之间关系的框架,其根本在于如何在模型大小 $N$ 和数据集大小 $D$ 之间优化地分配宝贵的计算资源。
研究目标与价值:
缩放法则的实践价值在于其可预测性。一个常见的工作流程是,通过少量小型实验拟合出缩放法则,然后外推以估算训练更大模型所需的Token数量和计算资源。
核心创新与发现回顾:
本文并非提出新的缩放法则,而是对现有研究进行了系统性的梳理、对比和批判性分析,旨在揭示缩放法则在实际应用中的复杂性和微妙之处。主要贡献包括:
1. 历史梳理: 回顾了从早期关于机器学习损失可预测性的研究到现代大规模语言模型缩放法则的演进过程。
2. 核心法则对比: 详细剖析并对比了两种里程碑式的缩放法则——Kaplan等人的法则和Chinchilla法则,并解释了它们之间产生分歧的原因(如模型参数的计算方式和实验规模的差异)。
3. 数据受限场景的扩展: 探讨了当唯一的、高质量的数据不足时,经典的缩放法则如何失效,并介绍了两种针对数据重复场景的修正模型,这些模型考虑了数据重复带来的“收益递减”和“过拟合惩罚”。
4. 实践应用的挑战: 强调了在现实中拟合缩放法则的困难,指出看似微小的程序性选择(如参数计数、损失精度、拟合区域)都可能导致预测结果的巨大差异。
关键符号定义:
| 符号 | 说明 |
|---|---|
| $N$ | 模型大小,以参数数量衡量。 |
| $D$ | 训练数据集大小,通常以Token数量衡量。 |
| $C$ | 训练所需的计算量(FLOPs)。一个有用的近似是 $C \approx 6ND$ (【4, Kaplan et al. 2020】),其中 $2ND$ 用于前向传播, $4ND$ 用于反向传播。 |
| $E$ | 不可约减的损失。 |
| $L, \hat{L}(.)$ | 测试损失 / 测试损失预测函数;也可指训练损失,因为两者高度相关。 |
| $\epsilon$ | 泛化误差。 |
A3 背景知识:机器学习损失的可预测性
早期研究方向。在缩放法则成为主流概念之前,研究人员已经开始探索泛化误差随规模变化的可预测性。
贝叶斯方法的早期探索。Amari等人(1992)【1, "Four Types of Learning Curves. Neural Computation." 1992】使用贝叶斯方法和退火近似(annealed approximation)推导出了四种类型的学习曲线。
1. 确定性学习算法,无噪声数据,唯一解:$\epsilon \sim c \cdot D^{-1}$,其中 $c$ 是某个常数。
2. 确定性学习算法,无噪声数据,多个等效解:$\epsilon \sim c \cdot D^{-2}$;由于模型仅学习参数的最优流形而非寻找单一解点,因此每个新数据点都能更快地促进学习。
3. 确定性学习算法,有噪声数据:$\epsilon \sim c \cdot D^{-1/2}$;数据中的噪声使学习变得更加困难。
4. 随机学习算法,有噪声数据:$\epsilon \sim c \cdot D^{-1} + E$;这里的不可约减损失 $E$ 是随机学习器无法进一步减少的残余误差,例如当模型在处理大量数据时容量耗尽。
这四种学习曲线都遵循幂律形式:
其中 $E$ 可以为0,$\alpha$ 的取值为-2、-1、-1/2。尽管他们的理论设置基于简化的二元分类任务,但为构建经验性的机器学习损失预测模型指明了有用的方向。
泛化误差、模型大小与数据量的关系。Hestness等人(2017)【2, "Deep Learning Scaling is Predictable, Empirically." arXiv 2017】的一项早期实证研究阐明了泛化误差、模型大小和数据之间的关系。他们通过网格搜索为给定的训练数据规模确定最佳拟合的模型大小,然后绘制损失与训练数据集大小的关系图。在深度学习的四个不同领域(神经机器翻译、图像分类、语言建模和语音识别)中,观察到了一个反复出现的模式:
* 泛化误差在多种因素(如数据大小)上均按幂律缩放。
* 模型的改进会使误差曲线发生位移,但似乎不影响幂律指数。
* 有趣的是,架构的改变会改变幂律拟合的偏移量($E$),但不会改变指数($\alpha$)。幂律的斜率似乎是问题领域本身的属性,而不是模型架构的属性。
* 拟合一个大小为 $D$ 的数据集所需的模型参数数量 $N$ 也遵循幂律缩放。
学习曲线的三个阶段。一个概念性图示将学习曲线分为三个阶段。在小数据区域,由于学习信号不足,模型的表现仅略好于随机猜测。在中间的“幂律区域”,我们观察到损失、数据和模型大小之间存在幂律关系。最后的不可约减误差区域可归因于数据中的噪声等因素。
误差的联合函数模型。Rosenfeld等人(2020)【3, "A Constructive Prediction of the Generalization Error Across Scales." ICLR 2020】进一步推动了这项研究,他们尝试将误差建模为模型大小 $N$ 和数据大小 $D$ 的联合函数,并涵盖了多种架构(ResNet, WRN, LSTM, Transformer)和优化器(Adam, SGD变体)。他们凭经验观察到,当固定一个维度时,误差会随着另一个维度呈幂律衰减:
联合函数形式的提出。上述关系可以合并为一个联合形式:
其中 $A > 0, B > 0, \alpha \geq 0, \beta \geq 0$ 是标量常数,而 $E$ 不依赖于 $N$ 或 $D$。
参数化预测模型的构建。因此,他们可以构建一个形式简单的参数化函数,其参数为 $\boldsymbol{\theta} = \langle A, B, E, \alpha, \beta \rangle$,通过仅在一系列较小的训练配置($(D, N)$ < 某个阈值)上进行训练,来预测在 $(D, N)$ > 某个阈值时的预期损失。
旁注:理论与实践的差异。这些早期工作依赖于经典的学习理论直觉,例如使用VC维(模型能打散的最大点集基数)作为容量的代理。然而,在现代深度学习研究中,VC维通常过于粗糙,无法解释模型行为,而经验性的幂律法则比理论提供的最坏情况界限更为简洁和实用。
A2 方法细节
数据无限区域的缩放法则
Kaplan等人的缩放法则
缩放法则在语言模型中的普及。Kaplan等人(2020)【4, "Scaling Laws for Neural Language Models." arXiv 2020】在语言建模社区推广了缩放法则的概念。他们发现,交叉熵测试损失 $L$ 在多个数量级上,分别与模型大小 $N$(不包括嵌入层)、数据集大小 $D$ 和训练计算量 $C$ 呈幂律关系。这些发现与前一节的早期工作一致,但Kaplan等人将这一概念形式化,专注于Transformer语言模型,并进行了更大规模的实证实验,模型大小范围从7.68亿到15亿非嵌入参数,数据集大小从2200万到230亿个Token。论文中所有的训练都使用了学习率调度,包括3000步的线性预热,然后是余弦衰减至零。
关键发现列表。
* 损失 $L$ 分别与 $N$、$D$ 和 $C$ 呈幂律关系;为获得最佳性能,这三者必须协同扩展。
* 训练曲线遵循可预测的幂律,其参数大致与模型大小无关。
* 更大的模型样本效率更高,意味着它们能用更少的优化步骤和数据点达到给定的损失。
* 架构细节(宽度、宽高比等)的重要性不及纯粹的规模。
* 训练损失和测试损失呈正相关。(这听起来很平常,但却是预训练工作的基础。另一方面,预训练损失的改善是否能迁移到训练后的评估中,则需要单独研究。)
* 给定固定的计算预算,训练一个非常大的模型并在其收敛前停止,比将一个较小的模型完全训练至收敛更有效。这一发现是后续Chinchilla缩放法则(下一节)提出异议的地方:Kaplan等人高估了最佳模型大小,因为他们拟合的指数偏大。
N和D的联合依赖关系。他们将对 $N$ 和 $D$ 的联合依赖关系总结为单个方程:
这种形式的一个良好结果是,过拟合的程度(即模型复杂或数据量小)主要取决于比率 $N^{\alpha / \beta} / D$,这表明数据需要以特定比例随模型大小的增长而增长,以避免训练受限于数据。
计算最优分配的结论。最具影响力,且事后看来最具争议的结论是关于计算最优分配的。Kaplan等人发现 $N_\text{opt} \propto C^{0.73}$,并得出结论:模型大小的增长速度应快于数据集大小。具体来说,对于计算量增加10倍,他们建议将模型大小扩大约5.5倍,而训练Token数量仅增加约1.8倍。后来的Chinchilla论文推翻了这一建议,认为这会导致大型模型严重训练不足。
训练FLOPs的近似计算。Kaplan等人的另一项有用分析是根据 $D$ 和 $N$ 来近似所需的训练FLOPs数量。每个乘加运算计为约2个FLOPs。
FLOPs计算推导。在一个标准配置下,其中 $d_\text{attn} = d_\text{model} = d_\text{ff}/4$,并且从 $N$ 和每个Token的前向计算中排除嵌入层:
总训练FLOPs。然后,我们将反向传播的FLOPs计为前向传播的两倍,因为反向传播分别对输入激活和权重的梯度执行两次矩阵乘法。因此,总的来说,每个Token的训练FLOPs大约为 $6N$,在 $D$ 个Token上进行训练的总FLOPs为 $C \approx 6ND$。
Chinchilla缩放法则
Chinchilla研究的核心问题。Chinchilla论文(Hoffmann等人,2022)【5, "Training Compute-Optimal Large Language Models." NeurIPS 2022】通过更仔细的实验设计,研究了在固定计算预算 $C$ 下,最优模型大小 $N$(总参数,包括嵌入层)与Token数量 $D$ 之间的关系,并得出了与Kaplan等人有所不同的答案。
资源分配的优化问题。核心问题是在 $\text{FLOPs}(N, D) = C \approx 6ND$ 的约束下,如何最好地分配资源。换句话说,当我们只有有限的FLOPs时(即给定数量的GPU运行给定时间),我们应该如何在更多的数据Token和更多的模型参数之间做出选择?
Chinchilla的三种拟合方法。Chinchilla论文提出了三种设计精巧的方法来拟合缩放法则。
实验设置。这些实证实验扫描了400多个模型,模型大小从7000万到超过160亿参数,训练Token数从50亿到5000亿。实验假设每个训练Token都是唯一的(数据无限区域)。所有运行都使用了余弦学习率调度,在训练过程中衰减10倍。通过扫描不同的模型大小,可以描绘出计算最优的前沿。
方法1:固定模型大小,改变Token预算。对于每个参数数量 $N$,使用不同的Token预算进行多次训练,并记录每个FLOP预算 $C$ 下达到的最小损失。
方法2:等FLOPs剖面图 (IsoFLOP profiles)。固定一个计算预算 $C$,并绘制最终损失随参数数量 $N$ 变化的曲线。每条等FLOPs曲线在对数空间中大致呈抛物线状,其最小值标志着该计算预算下的最优模型大小。然后在不同预算下重复此过程,可以在图中描绘出一条幂律线。
方法3:参数化拟合。直接拟合与Rosenfeld等人(2020)【3, "A Constructive Prediction of the Generalization Error Across Scales." ICLR 2020】中相同的参数化函数:
最优N和D的闭式解。通过在约束 $\text{FLOPs}(N,D) = C \approx 6ND$ 下最小化 $\hat{L}(N, D)$,我们实际上可以得到最优 $N_\text{opt}(C), D_\text{opt}(C)$ 的闭式近似解。首先,我们将表达式简化为只包含 $N$:
等比例缩放的条件。当 $\alpha \approx \beta$ 时,模型大小和训练Token数量应以相同的速率扩展。
参数拟合的具体方法。为了找到最优的 $\boldsymbol{\theta} = \langle A, B, E, \alpha, \beta\rangle$,Chinchilla论文采用了Huber损失(对异常值具有鲁棒性;$\delta=10^{-3}$)和L-BFGS算法(适用于参数较少的曲线拟合)。
Chinchilla研究结果的信服力。Chinchilla通过三种互补的方法得出了最终结论,并且这些方法的结果相互吻合,这也是其研究结果相当有说服力的部分原因。
Chinchilla的关键论证。Chinchilla论文中“当时(约2022年)大多数大型模型都训练不足”的论点,得到了一个著名例证的支持:在与Gopher(Rae等人,2021)【15, "Scaling Language Models: Methods, Analysis & Insights from Training Gopher." arXiv 2021】(280B参数,300B Token预算)相同的计算预算下,他们训练了Chinchilla模型(70B参数,1.4T Token预算),这是一个参数量小4倍但训练Token数多约4倍的模型,结果它在各项评估中全面超越了Gopher。
调和Kaplan与Chinchilla
核心分歧点。Chinchilla缩放法则与Kaplan等人的结论在以下几点上存在分歧:
* Kaplan建议“模型增长速度快于数据”($N_\text{opt} \propto C^{0.73}$),而Chinchilla认为模型大小和训练Token数应同步加倍($N_\text{opt} \propto C^{0.5}$)。
* Kaplan建议“训练一个大模型并在收敛前停止”,而Chinchilla建议“在更多数据上训练一个较小的模型”。
根本原因的探究。两篇论文都认同相同的基本原理,但对于最优的模型大小与Token数量的权衡点存在分歧。为什么他们会有如此大的差异?
差异1:实验模型的规模。Kaplan等人的实验主要集中在较小的模型上,而Chinchilla论文的实验规模则扩大了10倍以上。当我们在对数-对数空间中进行外推时,拟合上的微小差异可能导致巨大的预测差异(参见玩具模拟部分)。
差异2:嵌入层参数的重要性。在小参数规模下,嵌入层参数占总参数的比例不可忽略,因此是否计算它们会产生影响。Pearce & Song(2024)【6, "Reconciling Kaplan and Chinchilla Scaling Laws." TMLR 2024】对此进行了深入分析。我们用 $N_{\setminus E}, C_{\setminus E}$ 表示排除嵌入层时的模型大小和计算量,用 $N, C$ 表示总参数。
* Kaplan等人:$N^*_{\setminus E} \propto C^{0.73}_{\setminus E}$(非嵌入参数)
* Chinchilla:$N^* \propto C^{0.50}$(总参数)
建立桥梁:总参数与非嵌入参数的关系。为了连接两者,他们拟合了总参数 $N$ 和非嵌入参数 $N_{\setminus E}$ 之间的关系,其中 $\omega$ 为某个常数:
这种形式具有良好的性质,即它是严格递增的,并且 $\lim_{N \to \infty} N = N_{\setminus E}$(因为 $\frac{N}{N_{\setminus E}} = 1 + \omega {N_{\setminus E}}^{- \frac{2}{3}}, \lim_{N_{\setminus E} \to \infty} \frac{N}{N_{\setminus E}} = 1$)。
推导过程。将这个关系代入Chinchilla法则的方程中:
局部幂律指数的近似。上述方程中 $C_{\setminus E}$ 和 $N_{\setminus E}$ 之间的关系不再是一个简洁的幂律。我们只能将其局部近似为 $N^*_{\setminus E} \overset{\propto}{\sim} C_{\setminus E}^g$,其中 $g$ 是基于一阶导数($\overset{\propto}{\sim}$)的局部指数,而非全局幂律指数,即 $g = \frac{\mathrm{d} \log C_{\setminus E}}{\mathrm{d} \log N_{\setminus E}}$。关于指数 $g$ 如何近似的完整细节,请参见Pearce & Song(2024)【6, "Reconciling Kaplan and Chinchilla Scaling Laws." TMLR 2024】的附录A.1。
调和结果。如上图所示,随着 $C_{\setminus E}$ 变大,$g$ 会收敛到Chinchilla的估计值。通过使用上述方程生成合成的训练曲线,在模型大小从7.68亿到15亿(与Kaplan等人的实验范围一致)的范围内,他们估计该区域的 $g$ 值接近Kaplan的系数0.73。
为什么是幂律?
幂律的普遍性。幂律在人工智能之外的许多领域也广泛存在,例如齐夫定律(Zipf's law)、无标度网络(scale-free networks)、城市缩放法则(urban scaling laws)以及许多其他复杂系统。反复出现的模式是:大事件稀少,小事件普遍,且规模与频率之间的关系在对数-对数尺度上通常呈直线。
LLM缩放法则呈幂律的原因。为什么LLM的缩放法则也呈现幂律形状?
假说一:数据流形维度。受不同领域表现出不同指数的启发(Hestness等人,2017)【2, "Deep Learning Scaling is Predictable, Empirically." arXiv 2017】,Sharma & Kaplan(2020)【8, "A Neural Scaling Law from the Dimension of the Data Manifold." arXiv 2020】提出的一个早期解释假设,语言建模可以被视为在数据的低维流形上进行回归。更多的模型参数可以引导对数据流形进行更精细的划分,从而减小泛化误差。简单来说,如果一个有效大小为 $N$ 的模型将一个 $d$ 维流形划分为 $O(N)$ 个区域,那么典型的线性分辨率将按 $\sim N^{-1/d}$ 的比例缩放。这与上述缩放法则具有相似的幂律形式。该理论在数据无限、欠拟合的情况下最为适用,但实际上估算数据流形的内在维度相当困难。
假说二:知识的量化学习。后来的一个假说(Michaud等人,2023【13, "The Quantization Model of Neural Scaling" NeurIPS 2023】;Brill,2024【14, "Neural Scaling Laws Rooted in the Data Distribution." arXiv 2024】)假设知识或技能是以离散的“量化”块学习的,并且这些技能的频率分布遵循幂律。模型首先学习常见的技能,然后学习罕见的技能,从而导致损失呈平滑的幂律衰减。
其他假说。这里只列出了两种假说,但还有更多研究试图通过数据谱尾、核特征值、自然语言统计或训练动态中的相变来解释幂律缩放的形状。
数据受限区域的缩放法则
经典缩放法则的假设。经典的缩放法则假设存在有效无限的唯一数据,没有重复,也没有多轮(multi-epoch)训练。随着模型规模的显著增长,我们正面临高质量唯一Token不足的问题。实际上,一些关于人工智能扩展能持续多久的争论,正是围绕我们是否正在撞上“数据墙”。
数据质量的重要性。同样值得强调的是,$D$ 所代表的数据集被期望是经过清洗的。预训练数据管道通常是有效预训练流程的重要组成部分,常见步骤包括去重(精确和模糊)、质量过滤、样板代码移除、安全过滤、PII/版权信息屏蔽,以及根据语言、质量、内容类型等对数据混合成分进行仔细的重新加权。即使两个数据集的Token数量 $D$ 相同,一个高质量的数据集和一个充满互联网垃圾的数据集所产生的计算效率也可能截然不同。
重复数据影响的受控研究。Hernandez等人(2022)【9, "Scaling Laws and Interpretability of Learning from Repeated Data." arXiv 2022】的研究集中于一个受控版本:一个大部分唯一的数据集,其中包含一小部分重复数据。他们从一个大型数据集开始,数据混合中保留90%的非重复数据,但用原始数据的一小部分重复内容替换剩余的10%。通过训练一个Transformer模型1000亿个Token,他们观察到了双下降(double-descent)现象,即随着重复数据被强调的程度增加,测试损失实际上可能会先变差然后再次变好,这种效应随着重复比例的增长而变得更加明显。
双下降现象的解释。训练中段出现的平坦或上升趋势可能是由于对重复数据的记忆。具有这种形状的学习曲线使得缩放法则的拟合不够准确。他们还得出结论,重复数据会损害某些分布外(OOD)评估和下游微调。然而,他们的数据混合是在一个更像实验室的环境中构建的,现实世界数据中的重复通常更为微妙(例如,不同数据有不同程度的重复、语义重复等)。
研究问题的转变。我们更感兴趣的不是数据重复是否会损害训练,而是在唯一的高质量数据并非无限且我们可能不得不在训练中重复数据的情况下,如何拟合缩放法则。
数据受限下的最优计算分配。Muennighoff等人(2023)【10, "Scaling Data-Constrained Language Models." NeurIPS 2023】着手研究当模型训练受到数据约束时,计算资源应如何最优分配的问题。具体来说,他们通过大约400个实验,实证研究了数据重复的影响,实验覆盖了1000万至90亿参数的模型,高达9000亿Token的数据量,以及最多1500个epoch。每个epoch都重复使用完全相同的数据集,在epoch之间进行洗牌,并在一个留出的测试集上进行评估。
数据与模型规模的分解。关键的建模调整是将总Token数 $D$ 分解为两部分:(i)唯一Token数 $U_D$ 和(ii)重复次数 $R_D$(即 epoch数 - 1)。因此我们有 $D = U_D(1 + R_D)$。对于一个唯一数据预算 $D_\text{uniq}$,根据定义 $U_D = \min \\{ D_\text{uniq}, D \\}$ 且 $R_D = (D / U_D) - 1$。他们使用Chinchilla缩放法则来找到拟合 $U_D$ 的最优模型大小 $U_N$,并通过重复定义了超额模型大小 $R_N = (N / U_N) - 1$。
修正的参数化拟合公式。然后,他们更新了Chinchilla的参数化拟合(方法3),用有效的(折现的)数据 $D'$ 和模型大小 $N'$ 来代替原始量:
公式的直觉解释。其直觉是,一个Token的价值会随着它的重复而指数衰减。在他们的模型中,每次重复都会使Token损失其剩余价值的 $(1 - 1/r_D)$,其中 $r_D$ 是一个可学习的“半衰期”参数。当 $R_D = 0$ 或 $R_D \ll r_D$ 时,我们恢复到 $D' \approx D$。
模型规模的对称公式。一个对称的公式处理超额模型大小,$N' = U_N + U_N r_N(1 - \exp(-R_N / r_N))$,捕捉了“更大的模型在重复数据上过拟合得更快”以及“一个模型对其数据集来说可能过大”的思想。这个部分不那么直观,我未能找到一个令人满意的解释来说明为什么模型大小需要以这种与重复数据对称的形式出现。后来的工作(Lovelace等人,2026)【11, "Prescriptive Scaling Laws for Data Constrained Training." arXiv 2026】改变了这一假设。
实证发现与模型弱点。他们的实证拟合发现,超额参数的价值衰减速度快于重复数据,$r_N < r_D$,因此我们应该将更多资源分配给更多的epoch,而不是更大的模型参数。该模型的一个弱点是,正如作者也指出的,它显著低估了失败模型(即损失在训练中途增加的模型,例如训练了44个epoch的模型)的最终测试损失。
一种新的数据受限建模方法。最近,Lovelace等人(2026)【11, "Prescriptive Scaling Laws for Data Constrained Training." arXiv 2026】用一种不同的方法重新审视了同样的问题。Lovelace等人没有将过参数化建模为有效模型大小的收益递减,而是明确地对模型大小与数据重复之间的相互作用进行建模。在经验上,他们训练了大约300个模型,参数范围从1500万到10亿,唯一Token数从5000万到60亿。
过拟合损伤的观察。当他们绘制固定模型大小下,在一系列数据重复水平上的拟合残差时,观察结果很直观:更多的epoch造成更大的损害,而且有趣的是,更大的模型对重复更敏感。这暗示损失惩罚可能是模型大小和数据大小的函数。
显式过拟合惩罚项。他们引入了一个围绕容量比 $N / U_D$(参数数量相对于唯一Token数)构建的显式过拟合惩罚项:
其中:
* $R_D$ 是重复次数;
* 标量 $P$ 是一个可学习的参数;
* 指数 $\kappa$(第二个可学习参数)让惩罚项随容量比 $N / U_D$ 非线性缩放;
* 重复次数上的独立指数 $\delta$(第三个可学习参数)将重复的非线性与 $\kappa$ 解耦。
惩罚项的含义。这个新增的项(红色部分)是一个直接的过拟合惩罚,它会随着你重复数据的次数以及模型相对于可用唯一数据的过参数化程度而增长。
权重衰减的影响。他们还做了一个案例研究,探讨了权重衰减在数据受限约束下对训练的影响,并发现强权重衰减可以减少由数据重复引起的过拟合惩罚。
理论基础的缺失。Muennighoff等人和Lovelace等人的两种建模方法都是通过经验曲线拟合构建的,因此目前尚不清楚为什么数据受限的缩放法则应该具有这些确切的形式,以及为什么需要每个自由参数。对这方面更多的理论工作感到好奇。
在现实中拟合缩放法则的棘手之处
拟合的敏感性。尽管形式简洁,但在实践中,缩放法则的拟合对于看似微不足道的程序性选择,如如何计算参数、如何舍入精度、如何求和或平均损失等,都可能出奇地敏感。
外推带来的风险。因为缩放法则是仅在我们可以负担得起训练的(相对较小、相对便宜的)模型上拟合的,而预测是外推到一个数量级更大的模型。在这种设置下,看起来像舍入误差的选择可能会导致预测的巨大差异。
不变性假设。同时,缩放法则的拟合假设唯一变化的因素是规模,这意味着模型架构、优化器、学习率调度、批量增加策略、数据混合、分词器以及其他设计选择都应保持不变。另一个潜在的假设是,所有这些设置都应该经过仔细调整,因为像训练不足的模型这样的情况可能导致不同的结论。
案例一:Kaplan与Chinchilla的分歧。Kaplan等人和Chinchilla的研究结果之间的分歧,是展示拟合缩放法则棘手性的一个例子。
案例二:Chinchilla方法3的偏差分析。第二个例子是一项后续分析,调查了为什么Chinchilla的方法3与另外两种方法略有偏差。Besiroglu等人(2024)【12, "Chinchilla Scaling: A Replication Attempt." arXiv 2024】从Hoffmann等人(2022)【5, "Training Compute-Optimal Large Language Models." NeurIPS 2022】的图4中提取了原始的 $(N, D, L)$ 数据点,并重新运行了方法3的参数化拟合。他们发现了一些具体问题:
* L-BFGS-B最小化器中的高损失尺度问题,这是由于对样本的Huber损失值取平均而不是求和造成的,导致优化过早终止。在原始拟合和自举(bootstrapping)过程中,损失最小化的提前停止产生了不一致的估计和不切实际的窄置信区间。
* 报告的 $\alpha$ 和 $\beta$ 被四舍五入到小数点后两位,这使得推导出的 $A, B$ 看起来比实际偏差更大。
玩具模拟
模拟的目的。这里有一个由ChatGPT创建的玩具模拟小部件,旨在演示三种特定的失败模式。
模拟的基准函数。我们假设真实函数是:
因此,$N_\text{opt} \propto C^{0.5126}, D_\text{opt} \propto C^{0.4874}$。这是Besiroglu等人(2024)【12, "Chinchilla Scaling: A Replication Attempt." arXiv 2024】的估计。
模拟的交互方式。该模拟绘制了预测损失 $\hat{L}$ 与数据集大小 $D$ 的关系图,同时提供了一组滑块来展示:
* 损失精度:将损失从高精度四舍五入到低精度会改变拟合的参数值。
* 损失噪声:仅通过乘以毫损失(0.001)单位的倍数来扰动损失值,会导致不同的拟合结果。
* 拟合区域敏感性:仅在小模型、中等模型或所有模型上进行拟合,会得到不同的表观缩放法则。
A4 实验环境
本文作为一篇综述,其分析基于多篇引用的研究论文,因此没有统一的实验环境。以下是各主要研究中提及的关键实验配置:
-
Kaplan et al. (2020):
- 模型: Transformer语言模型,参数规模从7.68亿到15亿(不含嵌入层)。
- 数据集: 规模从2200万到230亿个Token。
- 硬件: 未明确说明,但隐含为大规模GPU集群。
-
Hoffmann et al. (2022) (Chinchilla):
- 模型: Transformer语言模型,参数规模从7000万到超过160亿。
- 数据集: 规模从50亿到5000亿个Token,并假设为唯一的Token。
- 软件: 所有训练运行均采用余弦学习率衰减调度。
-
Muennighoff et al. (2023) (数据受限研究):
- 模型: 参数规模从1000万到90亿。
- 数据集: Token总量高达9000亿,数据重复最多达1500个epoch。
- 硬件/软件: 进行了约400次实验,暗示了大规模的计算资源。
-
Lovelace et al. (2026) (数据受限研究):
- 模型: 参数规模从1500万到10亿。
- 数据集: 唯一Token数从5000万到60亿。
- 硬件/软件: 训练了约300个模型。
A4 实验结果
本文系统性地回顾了缩放法则的演进及其在不同条件下的表现,主要实验结果和结论可概括如下:
-
早期发现与基础模型: 早期的研究(如Hestness et al. 2017, Rosenfeld et al. 2020)凭经验发现,模型的泛化误差会随着数据量 $D$ 和模型大小 $N$ 的增加而呈幂律下降。这为构建一个联合预测模型 $\hat{L}(D, N) \approx \frac{A}{N^{\alpha}} + \frac{B}{D^{\beta}} + E$ 奠定了基础。
-
Kaplan法则 vs. Chinchilla法则:
- Kaplan et al. (2020) 的实验表明,在固定的计算预算下,最优策略是优先扩大模型规模而非数据量 ($N_\text{opt} \propto C^{0.73}$)。这导致了“训练一个大模型并提前停止”的策略。
- Hoffmann et al. (2022) (Chinchilla) 通过更广泛和严谨的实验(涵盖更大模型范围和三种不同的拟合方法)推翻了Kaplan的结论。他们的结果显示,模型大小和数据量应等比例扩展 ($N_\text{opt} \propto C^{0.5}$)。这一发现通过Chinchilla模型(70B参数,1.4T Token)在相同计算预算下击败Gopher模型(280B参数,0.3T Token)得到了有力证明,揭示了当时许多大模型处于“训练不足”的状态。
-
法则分歧的调和: Pearce & Song (2024) 的分析指出,Kaplan和Chinchilla的分歧主要源于两个方面:实验模型的规模范围和是否计算嵌入层参数。当考虑到嵌入层参数对小模型总参数量的显著影响后,可以证明在Kaplan的实验范围内,其观察到的指数(约0.73)与Chinchilla法则在该范围内的局部表现是一致的。
-
数据受限场景的缩放: 当高质量的唯一数据有限时,经典缩放法则不再适用。
- Muennighoff et al. (2023) 提出,重复数据的价值会呈指数衰减。他们的模型建议,在数据受限时,将计算资源更多地用于增加训练轮次(epochs)而非无限制地增大模型。
- Lovelace et al. (2026) 提出了一个包含显式“过拟合惩罚项”的模型。该惩罚项与数据重复次数和模型的“容量比”($N/U_D$)相关,并发现更大的模型对数据重复更敏感。他们的研究还表明,强权重衰减可以缓解这种过拟合惩罚。
-
拟合的现实挑战: 实践中,缩放法则的拟合非常棘手。Besiroglu et al. (2024) 对Chinchilla论文的复现研究表明,优化器设置、数值精度等看似微小的细节都可能显著影响最终拟合的参数,从而导致外推预测的巨大差异。这警示研究者和实践者必须“小心翼翼”地应用缩放法则。
A5 结论
本文系统地梳理了深度学习中缩放法则的演进、核心争论及其在现实应用中的复杂性。缩放法则作为一种强大的经验性工具,其简洁的幂律形式揭示了模型性能与计算、数据、模型规模之间的可预测关系。然而,本文强调,“小心翼翼”地应用这些法则是至关重要的。
文章从早期的损失可预测性研究讲起,详细对比了Kaplan等人和Chinchilla提出的两种主流计算最优缩放法则,并解释了它们分歧的根源在于实验设计和参数定义的差异。这揭示了缩放法则拟合的敏感性。
进一步,文章探讨了更贴近现实的数据受限场景。当高质量数据稀缺时,简单的缩放法则会失效。为此,研究者们提出了考虑数据重复收益递减和过拟合惩罚的修正模型,尽管这些模型目前仍主要基于经验拟合,缺乏坚实的理论基础。
最终,本文的结论是,尽管缩放法则为大规模模型训练提供了宝贵的指导,但其应用并非简单的公式套用。实践者必须警惕拟合过程中的各种陷阱,如拟合范围、数值精度和超参数设置等,因为微小的偏差在 extrapolate 到巨大规模时会被急剧放大。
未来展望: 文中多次提及当前模型多为经验拟合,暗示了未来的一个重要研究方向是为缩放法则(尤其是在数据受限情况下)建立更坚实的理论基础,解释其幂律形式及各种修正项背后的根本原因。
方法细节中的引用汇总
以下是“方法细节”章节中引用的参考文献、引用位置及其在原文中的描述:
[2] Hestness et al. "Deep Learning Scaling is Predictable, Empirically." arXiv preprint arXiv:1712.00409, 2017.
* 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> 为什么是幂律? -> 第3段
* 原文描述: "Inspired partly by different domains displaying different exponents (https://arxiv.org/abs/1712.00409), one early explanation by https://arxiv.org/abs/2004.10802 hypothesizes that language modeling can be viewed as doing regression on a low-dimensional manifold of data."
* 中文释义:受Hestness等人(2017)观察到不同领域展现不同指数的启发,Sharma & Kaplan(2020)提出了一个早期解释...
[3] Rosenfeld et al. "A Constructive Prediction of the Generalization Error Across Scales." ICLR 2020.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> Chinchilla缩放法则 -> 第7段
- 原文描述: "Fit the same parametric function as in https://arxiv.org/abs/1909.12673 directly,..."
- 中文释义:直接拟合与Rosenfeld等人(2020)中相同的参数化函数...
[4] Kaplan et al. "Scaling Laws for Neural Language Models." arXiv preprint arXiv:2001.08361, 2020.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> Kaplan等人的缩放法则 -> 第1段
- 原文描述: "https://arxiv.org/abs/2001.08361 popularized the concept of scaling laws in the language modeling community."
- 中文释义:Kaplan等人(2020)在语言建模社区推广了缩放法则的概念。
[5] Hoffmann et al. "Training Compute-Optimal Large Language Models." NeurIPS 2022.
- 引用段落 1: 方法细节 -> 数据无限区域的缩放法则 -> Chinchilla缩放法则 -> 第1段
-
原文描述 1: "The Chinchilla paper (https://arxiv.org/abs/2203.15556) studied the relationship between the optimal model size N ... and arrived at a somewhat different answer from Kaplan et al.."
- 中文释义:Chinchilla论文(Hoffmann等人,2022)研究了最优模型大小N...之间的关系,并得出了与Kaplan等人有所不同的答案。
-
引用段落 2: 方法细节 -> 在现实中拟合缩放法则的棘手之处 -> 第5段
- 原文描述 2: "https://arxiv.org/abs/2404.10102 extracted the raw (N, D, L) data points from Figure 4 of Hoffmann et al. (2022) and re-ran the method 3 parametric fitting."
- 中文释义:Besiroglu等人(2024)从Hoffmann等人(2022)的图4中提取了原始(N, D, L)数据点,并重新运行了方法3的参数化拟合。
[6] Pearce and Song. "Reconciling Kaplan and Chinchilla Scaling Laws." TMLR 2024.
- 引用段落 1: 方法细节 -> 数据无限区域的缩放法则 -> 调和Kaplan与Chinchilla -> 第4段
-
原文描述 1: "https://arxiv.org/abs/2406.12907 did a thorough analysis along this line."
- 中文释义:Pearce & Song(2024)沿着这个思路做了详尽的分析。
-
引用段落 2: 方法细节 -> 数据无限区域的缩放法则 -> 调和Kaplan与Chinchilla -> 第8段
- 原文描述 2: "See the full details of how the exponent g is approximated in Appendix A.1 in https://arxiv.org/abs/2406.12907."
- 中文释义:关于指数g如何近似的完整细节,请参见Pearce & Song(2024)的附录A.1。
[8] Sharma and Kaplan. "A Neural Scaling Law from the Dimension of the Data Manifold." arXiv preprint arXiv:2004.10802, 2020.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> 为什么是幂律? -> 第3段
- 原文描述: "...one early explanation by https://arxiv.org/abs/2004.10802 hypothesizes that language modeling can be viewed as doing regression on a low-dimensional manifold of data."
- 中文释义:Sharma & Kaplan(2020)提出的一个早期解释假设,语言建模可以被视为在数据的低维流形上进行回归。
[9] Hernandez et al. "Scaling Laws and Interpretability of Learning from Repeated Data." arXiv preprint arXiv:2205.10487, 2022.
- 引用段落: 方法细节 -> 数据受限区域的缩放法则 -> 第3段
- 原文描述: "The study by https://arxiv.org/abs/2205.10487 focused on a controlled version: a mostly-unique dataset with a small fraction of repeated data."
- 中文释义:Hernandez等人(2022)的研究集中于一个受控版本:一个大部分唯一的数据集,其中包含一小部分重复数据。
[10] Muennighoff et al. "Scaling Data-Constrained Language Models." NeurIPS 2023.
- 引用段落: 方法细节 -> 数据受限区域的缩放法则 -> 第8段
- 原文描述: "https://arxiv.org/abs/2305.16264 took on the research question of how compute should be allocated optimally when model training is data-constrained."
- 中文释义:Muennighoff等人(2023)着手研究当模型训练受到数据约束时,计算资源应如何最优分配的问题。
[11] Lovelace et al. "Prescriptive Scaling Laws for Data Constrained Training." arXiv preprint arXiv:2605.01640, 2026.
- 引用段落 1: 方法细节 -> 数据受限区域的缩放法则 -> 第12段
-
原文描述 1: "Later work by https://arxiv.org/abs/2605.01640 changed this assumption."
- 中文释义:后来的工作(Lovelace等人,2026)改变了这一假设。
-
引用段落 2: 方法细节 -> 数据受限区域的缩放法则 -> 第15段
- 原文描述 2: "Most recently, https://arxiv.org/abs/2605.01640 revisited the same problem with a different approach."
- 中文释义:最近,Lovelace等人(2026)用一种不同的方法重新审视了同样的问题。
[12] Besiroglu et al. "Chinchilla Scaling: A Replication Attempt." arXiv preprint arXiv:2404.10102, 2024.
- 引用段落 1: 方法细节 -> 在现实中拟合缩放法则的棘手之处 -> 第5段
-
原文描述 1: "A second example is a follow-up analysis investigating why Chinchilla method 3 is slightly off from the other two methods. https://arxiv.org/abs/2404.10102 extracted the raw (N, D, L) data points..."
- 中文释义:第二个例子是一项后续分析,调查了为什么Chinchilla的方法3与另外两种方法略有偏差。Besiroglu等人(2024)提取了原始(N, D, L)数据点...
-
引用段落 2: 方法细节 -> 在现实中拟合缩放法则的棘手之处 -> 玩具模拟 -> 第2段
- 原文描述 2: "This is the estimate from https://arxiv.org/abs/2404.10102."
- 中文释义:这是Besiroglu等人(2024)的估计。
[13] Michaud et al. "The Quantization Model of Neural Scaling" NeurIPS 2023.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> 为什么是幂律? -> 第4段
- 原文描述: "A later hypothesis (https://arxiv.org/abs/2303.13506, https://arxiv.org/abs/2412.07942) assumes that knowledge or skills are learned in discrete chunks ('quantized')..."
- 中文释义:后来的一个假说(Michaud等人,2023;Brill,2024)假设知识或技能是以离散的“量化”块学习的...
[14] Brill. "Neural Scaling Laws Rooted in the Data Distribution." arXiv preprint arXiv:2412.07942, 2024.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> 为什么是幂律? -> 第4段
- 原文描述: "A later hypothesis (https://arxiv.org/abs/2303.13506, https://arxiv.org/abs/2412.07942) assumes that knowledge or skills are learned in discrete chunks ('quantized')..."
- 中文释义:后来的一个假说(Michaud等人,2023;Brill,2024)假设知识或技能是以离散的“量化”块学习的...
[15] Rae et al. "Scaling Language Models: Methods, Analysis & Insights from Training Gopher." arXiv preprint arXiv:2112.11446, 2021.
- 引用段落: 方法细节 -> 数据无限区域的缩放法则 -> Chinchilla缩放法则 -> 第14段
- 原文描述: "The claim in the Chinchilla paper that most large models (at the time, ~2022) were undertrained is supported by a famous demonstration: under the same compute budget as Gopher (https://arxiv.org/abs/2112.11446; 280B parameter count, 300B token budget), they trained Chinchilla..."
- 中文释义:Chinchilla论文中“当时大多数大型模型都训练不足”的论点,得到了一个著名例证的支持:在与Gopher(Rae等人,2021;280B参数,300B Token预算)相同的计算预算下,他们训练了Chinchilla...
💬 评论讨论
欢迎在这里分享您的想法和见解!