On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

作者/机构: Charlie Zhang*, Graham Neubig, Xiang Yue† (Carnegie Mellon University, Language Technologies Institute)

A1 主要贡献

本文旨在以一种受控的方式，厘清预训练（pre-training）、中训练（mid-training）和强化学习（RL）在塑造语言模型（LMs）推理能力中的相互作用，以解决一个核心问题：后训练（post-training）是否真正扩展了模型在预训练之外的推理能力。现有研究对此有冲突的观点，主要原因是训练环境不受控，例如预训练语料库不透明，导致无法确定基础模型已内化的推理能力。

为了解决这一问题，研究者构建了一个完全受控的实验框架，以分离每个训练阶段的因果贡献。该框架基于三大原则：
1. 完全可控的合成推理任务：具有明确的原子操作和由有向无环图（DAG）定义的依赖结构。
2. 可观察、可解析的推理过程：支持过程级评估，减少奖励或评估 hacking 的风险。
3. 系统性地操纵训练分布：将因果效应归因于预训练、中训练和后训练各个阶段。

研究沿着两个关键维度评估模型的推理能力：
1. 外推（深度）泛化：评估模型通过组合学习到的原子操作，解决比训练中遇到的问题更复杂（即推理链更长）问题的能力。
2. 上下文（广度）泛化：评估模型将推理技能迁移到具有相同底层逻辑但表面形式新颖的上下文中的能力。

通过该框架，本文得出了以下几个核心贡献和见解：
* 澄清了RL有效性的冲突观点：RL只有在两个条件同时满足时才能产生真正的能力增益（以pass@128衡量）：(i) 任务在预训练中未被充分覆盖，为RL留下了足够的探索空间；(ii) RL数据被校准在模型的“能力边缘”（edge of competence），即任务有一定难度但又非遥不可及。
* 明确了上下文泛化的前提：RL需要基础模型中存在相关的原子技能或“种子”。没有最基本的预训练接触，RL无法诱导迁移。但即使是稀疏的覆盖（如≥1%），也足以让RL在此基础上进行强化，实现强大的跨上下文泛化。
* 揭示了中训练的关键作用：在固定的计算预算下，引入一个连接预训练和后训练的中训练阶段，能显著增强模型在分布内和分布外的性能，证明了中训练在训练流程中是一个被低估但极其强大的环节。
* 验证了过程级奖励的价值：将过程验证纳入奖励函数（即过程级奖励），可以有效缓解奖励 hacking 问题，提升推理的保真度，从而在复杂的组合性任务中带来可测量的准确性和泛化能力提升。

这些发现共同阐明了预训练、中训练和RL之间的相互作用，为理解和改进推理语言模型的训练策略提供了坚实的基础。

图1: 预训练、中训练和后训练在语言模型推理中的相互作用。左图：只有当任务难度略微超过预训练范围时，RL才能产生真正的外推增益；当任务已被覆盖或过于超出分布范围时，增益消失（在良好校准下，pass@128最多可提升+42%）。中图：上下文泛化需要对长尾上下文进行最少但充分的预训练曝光。在接近零曝光时RL失败，但在稀疏曝光（≥1%）时能稳健地泛化，pass@128最多可提升+60%。右图：在固定计算预算下，一个连接预训练和RL的中训练阶段能显著改善OOD推理，中训练+RL在OOD-hard任务上比单独的RL高出+10.8%。

A3 背景知识/关键Observation/设计原则

2.1 可控的合成推理数据集

基于GSM-Infinite框架构建可控测试平台。 本研究建立在【索引：Zhou et al., 2025a, Gsm-infinite: How do your llms behave over infinitely increasing context length and reasoning complexity?, 2025, https://arxiv.org/abs/2502.05252】的数据生成框架之上，以实现对推理结构、复杂度和上下文的精确控制。数据生成流程（如图2(a)所示）包含三个关键组成部分。

图2: 数据生成框架、任务设置和过程验证评估的概览。该图描绘了依赖图G和上下文模板τ，外推和上下文泛化的任务设置，以及检查推理步骤正确性的过程验证评估框架。

依赖图（Dependency Graphs）。 每个推理问题由一个有向无环图$G = (V, E)$表示，其中节点$v \in V$对应变量，有向边$e \in E$表示它们之间的依赖关系。图最终汇集到一个指定的答案节点$v^*$，该节点产生最终答案$a^*$。

推理复杂度控制。 我们通过算术运算的数量来量化图的复杂度：

$$\text{op}(\mathcal{G}) = |\mathcal{E}|,$$

这个指标控制了任务的难度，范围从基本算术到复杂的多步推理。

上下文渲染（Contextual Rendering）。 给定一个预定义的上下文模板$\tau$（例如，动物园中的动物、学校里的老师）和自然语言描述，我们将依赖图$G$渲染成一个完整的数学问题。最后，通过采样不同的图$G$和模板$\tau$并将它们渲染成文本，来生成多样化的数学问题。

框架选择的动机。 我们使用该框架主要基于三大优势：1) 无污染的训练阶段控制。我们为预训练、中训练和后训练指定了不同的数据分布以避免重叠。2) 结构与上下文的分解控制。每个问题都由一个编码了推理结构和依赖关系的DAG生成，其上的数值和上下文是后来实例化的。3) 过程级验证。基准真相的DAG可作为参考，用于验证中间步骤并防止不正确的推理。详细的公式和解释见附录A.1。

2.2 任务设置

语言模型需在两个互补轴上进行泛化。 在实际应用中，语言模型通常需要沿外推（深度）和上下文（广度）两个互补的轴进行推理泛化【索引：Setlur et al., 2025, e3: Learning to explore enables extrapolation of test-time compute for llms, 2025, https://arxiv.org/abs/2506.09026】、【索引：Zhou et al., 2025b, Does learning mathematical problem-solving generalize to broader reasoning?, 2025, https://arxiv.org/abs/2507.04391】、【索引：Huan et al., 2025, Does math reasoning improve general llm capabilities? understanding transferability of llm reasoning., 2025, https://arxiv.org/abs/2507.00432】。我们的受控实验揭示了这两个维度（如图2(b)所示），从而能够精确检验预训练、中训练和后训练如何影响每种泛化类型。

外推（深度）泛化（Extrapolative (Depth) Generalization）。 该维度评估模型在推理深度$op(G)$增加时保持正确性的能力【索引：Zhang et al., 2025, Agent learning via early experience, 2025, https://arxiv.org/abs/2510.08558】。如果一个模型能够解决其操作链长度超过训练期间所见问题的难题，那么它就表现出强大的外推泛化能力。

上下文（广度）泛化（Contextual (Breadth) Generalization）。 该维度衡量模型是否能将其推理基元（primitives）迁移到表面形式不同但共享相似底层推理结构的新领域。当模型在模板或表面形式发生变化而底层计算图保持不变时，其性能保持稳定，则认为模型具有上下文泛化能力。

任务设置的形式化定义。 关于泛化轴的形式化表示、数据集构建和完整定义在附录A.2中提供。

2.3 评估协议

采用过程验证评估方案。 我们所有的结果都是在过程验证评估方案下报告的（如图2(c)所示）。对于每个带有基准真相依赖图($G, a^*$)的实例，模型会生成一个自由形式的解决方案，我们将其解析为一个预测的依赖图$\hat{G}$和最终答案$\hat{a}$。评估过程在步骤级别上进行，对每个基准节点$v \in V$，通过比较预测和基准的节点、它们的依赖关系以及数值来进行。过程准确率计算为所有基准节点的平均步骤级准确率。一个预测只有在推理步骤和最终答案都匹配时才被认为是完全正确的。所有的pass@k指标（例如，pass@1, pass@128）都是根据这个严格标准报告的。详细的实现和解析方法在附录A.4中提供。

2.4 训练设置

模型与数据集。 我们使用100M参数的decoder-only Qwen2.5风格模型【索引：Qwen et al., 2025, Qwen2.5 technical report, 2025, https://arxiv.org/abs/2412.15115】进行训练，训练数据是使用GSM-Infinite框架生成的大规模合成推理数据集。整个语料库包含300亿个token，涵盖多种操作范围和上下文模板，并被划分为不相交的预训练、中训练和后训练集，以避免分布污染。

预训练（Pre-training）。 预训练使模型接触多样化的语料库以获取通用知识。在我们受控的推理任务中，它专注于使模型掌握我们合成数据集中的基础推理技能和算术运算规则，重点是掌握基本的推理基元而非广泛知识。遵循Chinchilla扩展定律【索引：Hoffmann et al., 2022, Training compute-optimal large language models, 2022, https://arxiv.org/abs/2203.15556】和数据丰富环境下的趋势【索引：Li et al., 2025, Predictable scale: Part ii, farseer: A refined scaling law in large language models, 2025, https://arxiv.org/abs/2506.10972】，我们用100亿个token（参数量的100倍）预训练我们的100M模型。数据集包含跨模板的op=2-10操作，使模型能够掌握推理，同时为更复杂的任务保留提升空间。模型达到了接近饱和的pass@128准确率，确保在更深层任务上的提升反映了真正的泛化能力。

中训练（Mid-training）。 中训练是介于预训练和后训练之间的一个中间阶段，因其在改善下游微调和RL性能方面的作用而受到关注【索引：Liu et al., 2025a, Midtraining bridges pretraining and posttraining distributions, 2025, https://arxiv.org/abs/2510.14865】、【索引：Wang et al., 2025, Octothinker: Mid-training incentivizes reinforcement learning scaling, 2025, https://arxiv.org/abs/2506.20512】、【索引：Akter et al., 2025, Front-loading reasoning: The synergy between pretraining and post-training data, 2025, https://arxiv.org/abs/2510.03264】。它通常使用更高质量或指令格式的数据，采用下一词元预测或SFT目标。中训练通过提供结构化的推理监督来稳定优化并促进RL的扩展，从而弥合了广泛的预训练语料库和面向奖励的RL数据之间的差距。在我们的设置中，我们实现了一个简化的中训练版本，保持与预训练相同的目标，但缩小数据分布，使其类似于RL，即模型表现出初步但尚不完全的能力。通过将监督集中在这个边界上，我们旨在加强RL可以放大的更高级别的推理先验。

后训练（Post-training）。 后训练使用特定任务的数据或目标，在预训练后精炼模型在特定任务上的性能。它通常包括两种策略：1) 监督微调（SFT）：在有标签的数据集或特定任务的指令上进行训练；2) 强化学习（RL）：模型通过接收其行为的奖励来进行优化。由于我们的预训练数据已经结构化且任务特定，我们主要关注RL进行后训练。我们使用GRPO【索引：Shao et al., 2024, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, https://arxiv.org/abs/2402.03300】，在精心策划的子集上进行训练，旨在探索在更深操作范围和新颖模板中的泛化能力。

A2 方法细节

3 后训练何时能激励模型超越基础模型进行推理？

研究问题与方法。 为了解开预训练和后训练对推理能力的贡献，我们首先分离出强化学习（RL）的具体影响。我们探究的问题是：RL是否以及在何时能够将基础模型的推理能力扩展到预训练所赋予的范围之外。通过固定预训练阶段，并改变后训练数据的难度和覆盖范围，我们旨在识别出RL能够驱动真正的组合泛化，而不仅仅是放大现有技能的具体情境。

任务设置。 我们专注于外推泛化（上下文迁移的后训练分析见附录A.6），并根据操作数定义了三类问题：分布内（ID）问题，其操作数在预训练范围内（op=2-10）；OOD-edge问题，其操作数略超出此范围（op=11-14），基础模型在此仍有非零的pass@128准确率；以及OOD-hard问题，其操作数远超预训练分布（op=15-20），基础模型在此准确率接近于零。解决OOD-hard问题需要以新颖的方式组合从ID数据中学到的原子操作，以适应增加的推理深度。实验设置如下：
* 预训练：基础模型在包含ID问题的100亿个token上进行预训练。
* 后训练：我们使用GRPO，总共20万个样本，这些样本来自四个不同的难度范围：op=7-10 (ID), op=9-12 (混合), op=11-14 (edge), 和op=17-20 (hard)。

关于训练动态和数据配方的更多信息，请参见A.5和A.9。

观察1：后训练的效果高度依赖于数据分布。 如图3所示，后训练的有效性对预训练和后训练的数据区域高度敏感：(i) 对于ID任务（op=2-10），无论RL数据区域如何，pass@1性能有明显提升，但pass@128没有改善，这表明RL只是在强化现有能力而非扩展它们。(ii) 然而，对于OOD任务（op=11-14和op=15-20），当RL应用于“能力边缘”（edge of competence）数据（op=11-14）时，pass@128性能总能得到提升，这展示了超越预训练的真正能力增益。

图3: 在三个任务上的pass@k性能：ID (op=2-10)，OOD-edge (op=11-14)，OOD-hard (op=15-20)。RL应用于四种不同的数据区域（用颜色区分）。在ID任务上，RL在pass@128上从未超越基础模型。当RL应用于超出基础模型能力的更难任务时，它在pass@128上持续提升。

结论1：RL产生真正能力增益的两个条件。 只有当两个条件同时满足时，RL才能在基础模型之外产生真正的能力增益（pass@128）：(i) 任务在预训练中没有被大量覆盖，留下了足够的探索空间；(ii) RL数据被校准在模型的能力边缘，既不太容易（分布内），也不太难（分布外）。

讨论1：与近期工作的联系。 近期研究对RL是否能增强基础模型推理能力得出了看似矛盾的结论。一方面，【索引：Zhao et al., 2025, Echo chamber: Rl post-training amplifies behaviors learned in pretraining, 2025, https://arxiv.org/abs/2504.07912】和【索引：Yue et al., 2025, Does reinforcement learning really incentivize reasoning capacity in llms beyond the base model?, 2025, https://arxiv.org/abs/2504.13837】认为，在标准任务（如数学和编码）上评估时，RL并不能提高pass@128准确率，因为这些领域在预训练中已经得到了很好的覆盖。另一方面，关于预训练覆盖率较低的合成任务的研究【索引：Liu et al., 2025b, ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models, 2025, https://arxiv.org/abs/2505.24864】、【索引：Yuan et al., 2025, From f(x) and g(x) to f(g(x)): Llms learn new skills in rl by composing old ones, 2025, https://arxiv.org/abs/2509.25123】、【索引：Sun et al., 2025a, Rl grokking recipe: How does rl unlock and transfer new algorithms in llms?, 2025, https://arxiv.org/abs/2509.21016】报告了显著的后训练增益。我们的受控环境通过表明这些发现源于后训练难度谱的不同区域，从而调和了这些观点。对于基础模型已经能解决的分布内任务，RL没有优势，因为性能随着pass@k的增加而饱和。相反，当RL针对基础模型失败的真正OOD任务时，我们观察到明显的外推改进，前提是RL数据位于模型的“能力边缘” 。

实践指导1：围绕模型能力边缘设计RL数据。 我们建议过滤RL数据集，以针对模型在pass@1上失败但在pass@k上成功的任务。这个策略避免了在高pass@1任务上的冗余，同时防止了在零pass@k任务上的奖励稀疏问题。这个过程也可以是迭代的：我们可以定期重新评估“能力边缘”任务池；随着模型变强，以前的分布外任务将漂移到可解决范围内，从而形成一个自然的、自定进度的课程。

4 预训练的曝光度如何塑造后训练的泛化能力？

研究问题与假设。 在确定了后训练激励泛化的条件后，我们转向一个更基础的问题：预训练的曝光度如何塑造后训练的泛化能力？我们假设，对基本推理基元的预训练曝光对于有效的后训练泛化至关重要。为了探究这个问题，在固定的RL数据配方和设置下，我们改变预训练数据的分布，并检验其对后训练泛化能力的影响。

任务设置。 在本研究中，我们专注于对长尾上下文B的上下文泛化，其中在预训练期间只提供原子推理基元（op=2的例子）（关于简单上下文泛化和外推的实验见附录A.6.1和A.7）。通过在预训练期间操纵长尾上下文B的原子op=2例子的比例，我们旨在评估对这些基本基元的曝光如何塑造模型在后训练期间迁移学习技能和有效外推的能力。我们的实验设置结构如下：
* 预训练：基础模型在100亿个token上进行预训练，这些token包含op=2-20的上下文A和长尾op=2的上下文B的例子，我们改变原子op=2例子对长尾上下文B的曝光比例。
* 后训练：RL应用于20万个样本，其中包含50%的上下文A和50%的上下文B，范围覆盖op=2-20。关于训练动态和数据配方的更多细节可以在附录A.8和A.9中找到。

图4: 在使用50%上下文A + 50%上下文B混合数据进行后训练后，模型在上下文B上的pass@128性能。不同的线代表预训练期间对长尾上下文B原子op=2例子的不同曝光水平。当模型在预训练中对上下文B有最少的曝光（≥1%）时，RL能够激励上下文泛化。

观察2：预训练曝光度对后训练泛化有显著影响。 如图4所示，预训练期间对长尾上下文的曝光对后训练泛化有重大影响：(i) 当预训练排除上下文B或提供零(0%)或极少(0.1%)曝光时，RL无法迁移到上下文B。(ii) 在预训练期间引入哪怕1%的上下文B数据，就能显著增强后训练的泛化能力，甚至在最难的op=20任务上也是如此。这一观察强调，虽然RL在泛化中扮演关键角色，但其有效性严重依赖于预训练数据的覆盖范围，特别是长尾上下文的包含。

结论2：RL需要预训练提供的“种子”来进行泛化。 只有当基础模型已经包含了必要的基元时，RL才能激励上下文泛化。没有对新上下文的最基本预训练曝光，RL无法诱导迁移。然而，即使是稀疏的曝光（例如，≥1%）也提供了一个足够的种子，RL可以在后训练期间加以强化，从而产生稳健的跨上下文泛化。

讨论2：复制还是创造？ 我们在图5中检验了生成的正确上下文B图与来自上下文A的基准真相拓扑之间的拓扑相似性分布。高相似性表明模型主要复制现有的上下文A推理模式，而低相似性则表明出现了与上下文A不同的新颖推理结构。

观察结果。 我们观察到任务难度和预训练曝光度之间的相互作用：1) 对于较简单的组合（op=2-10），模型倾向于复制来自上下文A的现有模式。2) 随着任务复杂性增加（op=11-20），模型会生成更多新颖的结构，尤其是在预训练时对上下文B有足够曝光的情况下。

实践指导2：在预训练中播种长尾知识元以释放RL潜力。 RL不能凭空合成能力；它需要潜在的“种子”来放大。然而，这些种子不必复杂。我们的结果表明，只要原子推理基元在预训练中存在，RL就能成功地外推到困难任务。实践者应优先考虑对基础领域知识、规则和技能的广泛覆盖（密度约为1%），而不是追求复杂的数据样本。一旦这些基本基元建立起来，RL就能有效地充当一个组合器，将它们结合起来解决复杂的分布外问题。

5 中训练如何与后训练相互作用？

研究背景和问题。 尽管强化学习（RL）能有效增强外推泛化能力，但其成功往往取决于预训练期间建立的表征先验。近期工作【索引：Wang et al., 2025, Octothinker: Mid-training incentivizes reinforcement learning scaling, 2025, https://arxiv.org/abs/2506.20512】、【索引：Liu et al., 2025a, Midtraining bridges pretraining and posttraining distributions, 2025, https://arxiv.org/abs/2510.14865】提出将中训练（mid-training）作为预训练和后训练之间的一个中间阶段，旨在桥接数据分布并在下游适应之前加强推理先验。这引出一个关键问题：在固定的计算预算下，中训练和RL如何相互作用，以及它们之间怎样的平衡能产生最大的泛化增益？本节我们检验中训练与后训练的协同作用，旨在定义它们的互动如何驱动推理泛化。

计算预算公式。 为了公平比较，我们根据浮点运算（flops）将两个阶段都归一化为等效的训练token。对于中训练，消耗$T_{mid}$是处理的监督token数量。对于RL，等效的token成本近似为：

$$T_{\mathrm{RL}} \approx \frac{5}{3} N \cdot r \cdot L_{\mathrm{total}},$$

其中$N$是RL样本数，$r = 6$是 rollout multiplicity（展开多样性），$L_{total} = 2048$是总token长度。我们系统地改变RL分配比例$\beta \in [0, 1]$，以在两个阶段间分配总预算$T$：

$$T_{\text{mid}} = (1 - \beta) \cdot T, \quad T_{\text{RL}} = \beta \cdot T.$$

任务设定。 在本节中，我们使用在100亿个op=2-10数据上预训练的相同基础模型，探索五种训练配置的性能：在op=11-14范围的10亿个监督token上进行全中训练；在相同的op=11-14范围上，使用批量大小为1024、进行100步的全RL；以及三种混合策略——轻度RL（$\beta = 0.2$）、中度RL（$\beta = 0.5$）和重度RL（$\beta = 0.8$），这些策略在等效的计算预算下平衡了中训练和RL。第5节中的计算预算公式允许直接比较数据混合策略。详细的训练设置可以在附录A.10中找到。

图6: 在不同的中训练和后训练混合比例下，外推任务上的pass@1和pass@128性能。中训练和后训练使用的数据都在OOD-edge范围内。不同的线条表示不同的计算分配策略。重度RL总能改善未见的OOD-hard任务，而轻度RL在OOD-edge任务上能获得最佳的pass@1性能。

观察3：计算分配策略影响不同泛化谱。 如图6所示，计算分配在泛化谱上诱导出质적으로不同的行为。(1) 在OOD-edge任务上，全中训练和轻度RL的配置优于重度或全RL的配置，其中轻度RL取得了最佳的pass@1性能。(2) 对于OOD-hard任务，将更多预算重新分配给重度RL，显著提高了在最难实例上的pass@1和pass@128性能。这些趋势表明，RL驱动的探索对于泛化到更难的任务是不可或缺的，但一个 substantial 的中训练分配对于灌输RL能有效利用的先验知识仍然至关重要。我们在附录A.10中进一步分析了不同计算预算的影响。

结论3：中训练是训练设计中一个强大但未被充分探索的杠杆。 引入一个连接预训练和后训练分布的中训练阶段，在固定的计算预算下能显著增强泛化能力。这突显了中训练作为一个被低估但强大的训练设计杠杆。计算资源的分配应具有任务感知性：(i) 当优先考虑分布内性能时，应将更多预算分配给中训练，并仅进行轻度RL；(ii) 为了实现分布外泛化，应为中训练保留一部分适度的计算资源以建立必要的先验，并将剩余预算投入到更重的RL探索中。

讨论3：中训练的作用。 近期研究【索引：Shao et al., 2025, Spurious rewards: Rethinking training signals in rlvr, 2025, https://arxiv.org/abs/2506.10947】、【索引：Gandhi et al., 2025, Cognitive behaviors that enable self-improving reasoners, or, four habits of highly effective stars, 2025, https://arxiv.org/abs/2503.01307】指出，像Qwen【索引：Qwen et al., 2025, Qwen2.5 technical report, 2025, https://arxiv.org/abs/2412.15115】这样的模型对RL的响应远比LLaMA【索引：Touvron et al., 2023, Llama: Open and efficient foundation language models, 2023, https://arxiv.org/abs/2302.13971】等架构更有效。一个趋于一致的解释是存在一个中训练阶段，它使监督与后训练分布更紧密地对齐。面向推理的中训练已被证明能显著提高模型的RL准备度。【索引：Wang et al., 2025, Octothinker: Mid-training incentivizes reinforcement learning scaling, 2025, https://arxiv.org/abs/2506.20512】发现，在结构化推理数据上进行中训练的LLaMA模型，其RL性能可与更强的Qwen基础模型相媲美，这表明中训练在很大程度上决定了下游RL的响应性。作为补充，【索引：Liu et al., 2025a, Midtraining bridges pretraining and posttraining distributions, 2025, https://arxiv.org/abs/2510.14865】表明，中训练充当了分布桥梁，通过缩小预训练和RL任务之间的差距来减少遗忘并简化适应过程。这一观点也与【索引：Akter et al., 2025, Front-loading reasoning: The synergy between pretraining and post-training data, 2025, https://arxiv.org/abs/2510.03264】的“前置加载”（frontloading）原则一致：更早地注入结构化推理监督，为后续训练阶段（包括RL）提供了可以高效放大的支架。综上所述，这些工作指向一个统一的结论：中训练是一个战略上重要的组成部分，它为模型进行稳定和样本高效的RL做好准备，使其能够实现超越仅仅强化现有能力的提升。

实践指导3：平衡中训练和后训练的互补优势。 设计训练流程时，应将中训练视为安装先验知识的阶段，将RL视为扩展探索的阶段。对于中训练，应策划位于模型“能力边缘”的数据集，这有助于稳定RL所需的基元。实践者应根据部署目标调整计算预算：(1) 为了在相似任务（OOD-edge）上获得可靠性，将大部分计算资源分配给中训练，并使用轻度RL。(2) 为了在复杂任务（OOD-hard）上进行探索，为中训练分配适度的预算（仅足以建立先验），并将大量计算资源用于RL探索。

6 通过结果奖励中的过程监督来缓解奖励 hacking

研究背景与问题。 使用基于结果的奖励进行后训练在提高推理性能方面非常有效，但它容易受到奖励 hacking 的影响——这是一种失败模式，即模型通过利用虚假的捷径或通过无效的推理链得出正确答案来获得高最终准确率。我们之前引入了过程验证作为一种评估标准，只有当中间步骤和最终结果都正确时才奖励模型。在这里，我们将这一原则扩展到奖励设计本身，并提问：过程感知的监督能否在保持泛化性能的同时，缓解奖励 hacking？

任务设定。 为了鼓励模型不仅生成正确的最终答案，还要生成有效的中间推理步骤，我们用过程级验证来增强结果奖励。我们定义一个复合奖励函数：

$$R = \alpha R_{\mathrm{out}} + (1 - \alpha) R_{\mathrm{pv}}.$$

$R_{out}$表示传统的基于结果的奖励（最终答案正确为1，否则为0），它可能是稀疏的且容易受到结果奖励 hacking 的影响。$R_{pv}$表示由附录A.2中过程级准确率标准定义的过程验证奖励，它是一个密集的奖励，反映了每个推理步骤的正确性。$\alpha \in [0, 1]$控制结果准确性和过程保真度之间的平衡。我们还考虑了一个更严格的公式：

$$\begin{aligned} R=\begin{cases}R_{\text{out}}, & \text{if } R_{\text{pv}}=1, \\ 0, & \text{otherwise.}\end{cases} \end{aligned}$$

该公式仅在整个推理过程被验证为正确时才给予结果奖励。这个设置提供了过程级监督以减少奖励 hacking。在此奖励设置下，我们使用不同的奖励组合在op=11-14上进行后训练，以评估不同程度的过程监督如何影响推理泛化。

观察4：过程验证显著提升性能。 如图7所示，整合过程验证在外推（op=15-20）设置中，将pass@1显著提高了4-5%。中等的奖励混合（0.2 $R_{out}$ + 0.8 $R_{pv}$）在结果准确性和推理一致性之间取得了最佳平衡，而严格的奖励（仅当$R_{pv}=1$时才有$R_{out}$）进一步带来了显著的改进。这些结果证实，过程级监督有效地缓解了奖励 hacking，并鼓励了忠实的推理行为。

图7: 不同奖励组合下的pass@k性能。每个条形对应一种不同的奖励混合策略。将过程级信息纳入结果奖励，在所有评估设置中都持续产生可衡量的性能增益。

结论4：过程感知奖励减轻奖励 hacking 并增强推理保真度。 将过程验证纳入奖励函数，使强化信号与有效的推理行为对齐，从而在复杂的组合设置下，在准确性和泛化能力方面都带来了可衡量的改进。

讨论4：过程验证如何重塑RL泛化？ 我们研究了整合过程验证是否能更好地引导RL走向忠实的推理。我们分析了不同的奖励公式如何影响RL微调期间的正确性和结构性错误模式。

分析结果。 如图8所示，整合过程验证持续地将模型从利用捷径转向结构上忠实的推理。通过减少结构性错误并强化正确的中间步骤，过程感知的奖励使得在外推（op=15-20）设置下能够实现更可靠的改进。这些结果突显了将奖励与有效的推理轨迹对齐对于扩展基于RL的泛化至关重要。

实践指导4：结合稀疏结果信号和密集过程级反馈。 在实践中，将稀疏的最终结果信号与更丰富、密集的过程级信息相结合是有益的【索引：Gunjal et al., 2025, Rubrics as rewards: Reinforcement learning beyond verifiable domains, 2025, https://arxiv.org/abs/2507.17746】、【索引：Khalifa et al., 2025, Process reward models that think, 2025, https://arxiv.org/abs/2504.16828】。只要过程监督质量高【索引：Cui et al., 2025, Process reinforcement through implicit rewards, 2025, https://arxiv.org/abs/2502.01456】，我们建议将过程级信息纳入结果奖励。这有助于缓解奖励 hacking 并持续提高性能。

A4 实验环境

数据集:
- 名称与来源: 使用基于GSM-Infinite框架【索引：Zhou et al., 2025a, Gsm-infinite: How do your llms behave over infinitely increasing context length and reasoning complexity?, 2025, https://arxiv.org/abs/2502.05252】生成的完全可控的合成推理数据集。
- 规模与用途: 总语料库包含300亿个token，涵盖不同的算术操作复杂度和上下文模板。语料库被划分为不相交的集合，分别用于预训练（10B tokens，操作复杂度op=2-10）、中训练和后训练，以避免数据污染。
模型架构:
- 类型与参数: 采用100M参数的decoder-only Qwen2.5风格架构【索引：Qwen et al., 2025, Qwen2.5 technical report, 2025, https://arxiv.org/abs/2412.15115】。
- 关键参数: 12个Transformer层，隐藏层大小为768，中间层大小为3072，12个注意力头，2个键值头，激活函数为SiLU，RMS Norm Epsilon为1e-06 (附录表1)。
硬件配置:
- 论文中未明确提及具体的硬件配置（如GPU型号、数量等）。
软件配置:
- 实现与依赖库: 后训练阶段使用GRPO【索引：Shao et al., 2024, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, https://arxiv.org/abs/2402.03300】进行强化学习。
- 分词器: 使用在合成推理语料库上直接训练的字节对编码（BPE）分词器，词汇表大小为2200。
- 训练细节: 所有模型均以bf16精度进行训练，上下文长度为2048。具体的超参数（如学习率、批大小、权重衰减等）在预训练、中训练和后训练阶段有所不同，详见附录A.3.3。

A5 实验结果

本文通过一系列受控实验，系统地分析了预训练、中训练和后训练对语言模型推理能力的影响。

RL数据难度对推理泛化的影响 (第3节)
- 实验内容: 在固定的预训练模型基础上，使用不同难度（ID, OOD-edge, OOD-hard）的RL数据进行后训练。
- 实验结果: RL仅在数据处于模型“能力边缘”（OOD-edge）时，才能显著提升pass@128性能，实现真正的能力扩展。对于已掌握的ID任务，RL仅能“锐化”现有能力（提升pass@1）；对于过难的OOD-hard任务，RL则无法学习（图3）。
- 分析结论: RL的有效性高度依赖于后训练数据与模型基础能力的对齐。
预训练曝光度对上下文泛化的影响 (第4节)
- 实验内容: 改变预训练数据中对长尾上下文B的原子操作（op=2）的曝光比例，然后在包含上下文B的混合数据上进行RL后训练。
- 实验结果: 若预训练中完全没有或极少接触上下文B（<1%），RL无法实现向该上下文的泛化。然而，只要有稀疏的曝光（≥1%），RL就能成功地将推理能力迁移到上下文B，并在复杂任务上表现出色（图4）。
- 分析结论: 预训练为RL提供了泛化的“种子”。即使是少量的基础知识，也能被RL有效地放大，实现跨上下文迁移。
中训练与后训练的协同作用 (第5节)
- 实验内容: 在固定的总计算预算下，比较不同比例的中训练和RL组合策略的性能。
- 实验结果: 中训练与RL的组合策略在OOD任务上优于单独使用全RL。对于OOD-edge任务，轻度RL表现最佳；而对于OOD-hard任务，重度RL的泛化能力更强（图6）。
- 分析结论: 中训练通过建立推理先验，为RL的探索提供了坚实基础，是一个高效提升模型RL准备度的关键阶段。计算资源的分配应根据任务目标（在分布内稳定还是在分布外探索）进行调整。
过程监督对缓解奖励Hacking的影响 (第6节)
- 实验内容: 在RL后训练中，比较纯结果奖励与混合了过程验证的奖励函数。
- 实验结果: 引入过程验证奖励后，模型在外推任务（op=15-20）上的pass@1性能提升了4-5%。它显著减少了推理过程中的结构性错误（如依赖不匹配、节点缺失），从而提升了推理的保真度（图7, 8）。
- 分析结论: 过程感知的奖励能够有效缓解奖励hacking问题，引导模型学习更忠实、更可靠的推理路径，从而提升泛化能力。

A6 结论

本研究通过一个完全受控的实验框架，对预训练、中训练和后训练如何共同决定语言模型的推理能力进行了深入的调查。通过解耦每个训练阶段的贡献，本研究阐明了强化学习（RL）增强或未能增强推理泛化的因果机制。

研究的核心结论是，通过后训练实现的真正推理能力提升，其前提是在预训练阶段已经建立了关键的推理基元（primitives）。研究结果表明：

RL的有效性取决于其训练数据是否位于模型的“能力边缘”。
上下文泛化需要预训练阶段提供最少的“种子”知识。
在固定的计算预算下，中训练是提升模型RL准备度的关键杠杆。
过程感知的奖励能有效缓解奖励hacking，提升推理的忠实度。

总而言之，这些发现深化了我们对语言模型中推理能力发展的理解，并为构建数据课程、设计奖励函数以及在不同训练阶段分配计算资源提供了可操作的指导。

A7 附录

A.1 数据生成框架

框架形式化细节。 本节提供了论文中使用的可控数据生成框架的详细形式化说明。我们描述了(i)每个推理实例底层的图级形式化，(ii)将结构与数值和语言实例化分离的抽象机制，(iii)将图映射到自然语言问题的上下文渲染函数，以及(iv)具体的生成流程和去重程序。

A.1.1 图级形式化

基于有向无环图的实例表示。 每个推理实例都基于一个有向无环图（DAG）

$$\mathcal{G}=(\mathcal{V}, \mathcal{E}),$$

其中每个节点$v_i \in V$代表一个潜在数量（例如，“成年狮子的数量”），每条有向边$(v_j \to v_i) \in E$编码了一个函数依赖。我们将依赖关系限制为基本的算术运算：

$$v_i = f_i((v_j)_{j \in \text{pa}(i)}), \quad f_i \in \{+, -, \times, \div\},$$

其中$pa(i)$是节点$i$的父节点集合。

节点值的递归求值。 给定所有叶节点的数值分配，我们定义一个求值映射

$$val : \mathcal{V} \to \mathbb{R}$$

该映射通过以下方式递归定义：

$$\mathrm{val}(v_i) = f_i(\{\mathrm{val}(v_j)\}_{j \in \mathrm{pa}(i)}),$$

其基础情况由叶节点的值给出。对于一个指定的查询节点$v^*$，基准真相答案是

$$a^* := \text{val}(v^*).$$

查询节点的确定。 在我们所基于的GSM-Infinite实现【索引：Zhou et al., 2025a, Gsm-infinite: How do your llms behave over infinitely increasing context length and reasoning complexity?, 2025, https://arxiv.org/abs/2502.05252】中，查询节点$v^*$对应于：
* 前向生成器拓扑排序中的最后一个数值节点，或
* 方程形式的反向生成器中指定的未知参数。

在整个过程中，DAG $G$被视为符号推理图，其结构在不同的数值实例化和语言实现中是共享的。

推理复杂度的量化。 我们通过算术运算的数量来量化一个实例的结构复杂性：

$$\text{op}(\mathcal{G}) = |\mathcal{E}|.$$

这个数量为计算$a^*$所需的最短组合推理链长度提供了下界，并且是我们研究外推（深度）泛化时改变的主要参数。

A.1.2 抽象参数和实例参数

结构、数值与语言上下文的分离。 遵循GSM-Infinite的抽象机制，我们明确地将结构、数值实例化和语言上下文分离开来。

抽象参数。 每个图$G$都与一组抽象参数相关联，这些参数：
* 指定存在哪些变量以及它们如何分解（例如，“动物总数”分解为“狮子”和“大象”），以及
* 确定边集$E$和附加到每个节点的操作$f_i$。
这些参数定义了一个纯符号图，独立于具体的数字或实体。

实例参数。 给定一个抽象图，实例参数用具体的值和实体来实例化它：
* 对叶节点的数值分配（例如，“有12只成年狮子和7只小象”），以及
* 将变量绑定到特定上下文的表面形式（例如，“城市动物园里的成年狮子”）。
在同一个抽象图上实例化不同的数值会导致一系列结构上相同但具体数字不同的问题。

隐式推理。 并非所有的抽象依赖关系都需要在自然语言问题中明确表述。对于给定的语言渲染，边集可以被划分为：

$$\mathcal{E} = \mathcal{E}_{\text{explicit}} \cup \mathcal{E}_{\text{implicit}}, \quad \mathcal{E}_{\text{explicit}} \cap \mathcal{E}_{\text{implicit}} = \emptyset,$$

其中$(v_j \to v_i) \in E_{explicit}$表示文本中直接陈述的关系（例如，“大象比狮子多5只”），而$(v_j \to v_i) \in E_{implicit}$表示作为基准真相推理图一部分但从未直接言明的关系（例如，“动物总数等于狮子加象”）。这种分离允许显式和隐式推理步骤在同一个底层图中并存，并使我们能够探究模型恢复未言明依赖关系的能力。

A.1.3 上下文渲染

符号图到自然语言问题的映射。 为了将符号图映射到自然语言问题，我们引入一个上下文渲染函数：

其中$\tau \in T$是一个上下文模板，$x$是生成的文本实例。

模板定义。 模板$\tau$（例如，动物-动物园，老师-学校，电影-电影节）指定了：
* 抽象变量如何被词汇化为特定领域的表面形式（例如，“成年狮子”，“A班的孩子”，“第一天售出的票”），以及
* 哪些边的子集在措辞中被明确实现，从而决定了$E_{explicit}$和$E_{implicit}$之间的划分。

模板与结构等价性。 对于任意两个仅在表面上下文上不同的模板$\tau_a, \tau_b \in T$，所引发的问题在结构上保持相同：

$$\text{Struct}(\Phi(\mathcal{G}, \tau_a)) = \text{Struct}(\Phi(\mathcal{G}, \tau_b)), \quad \forall \tau_a, \tau_b \in \mathcal{T}$$

即使它们的表面实现、实体和显式/隐式划分可能不同。因此，一个单一的抽象图可以被渲染成语义上不同但结构上等价的问题，我们利用这一点来研究上下文（广度）泛化。

解决方案格式。 渲染函数产生一个三元组：

其中：
* [question]是符号图$G$所提出问题的自然语言表示，通常包含关于图某个方面的查询（例如，“第一天售出了多少张票？”）。它抽象了底层结构并提供了解决方案的上下文。
* [solution]是遵循符号图$G$拓扑顺序的逐步推导。它包括中间推理步骤和图元素之间的逻辑联系，最终导出最终答案。解决方案明确显示了问题的每个部分是如何推导或计算的。
* [answer]是对[question]中提出的查询的最终回应，通过[solution]过程得出。它通常是一个数值或回答所提问题的特定实体。

这种结构确保了渲染出的输出既人类可读，又与底层的符号图在逻辑上一致，保持了原始问题的完整性，同时使其在自然语言中易于理解。

[Question]
[问题]
Westhaven市的小学数量等于Westhaven市的公立高中数量。Evervale市的小学数量等于Evervale市的公立高中数量与Westhaven市的地区医学院数量之和。Evervale市的学校总数为22所。Brightford的小学数量为3所。Brightford的公立高中数量为2所。Brightford的地区医学院数量等于Westhaven市的学校总数。Westhaven市的地区医学院数量为2所。Evervale市的地区医学院数量是Brightford地区医学院数量的2倍。Westhaven市的公立高中数量为3所。Evervale市存在公立高中，其数量大于0。
Evervale市有多少所公立高中？
[/question]

Solution
[解法]
这个问题很难，所以我们用方程来解。
定义Westhaven市的公立高中为U；所以U = 3。
定义Westhaven市的小学为B；所以B = U = 3。
定义Westhaven市的地区医学院为h；所以h = 2。
定义Westhaven市的学校总数为y；d = U + B = 3+3 = 6，所以y = d+h = 6+2 = 8。
定义Brightford的地区医学院为Q；所以Q = y = 8。
定义Evervale市的地区医学院为S；z = Q = 8，所以S = 2z = 16。
定义Evervale市的公立高中为x（未知）。
定义Evervale市的小学为m；所以m = x + h = x + 2。
定义Evervale市的学校总数为k。

$$n=x+(x+2)=2 x+2, \quad k=n+S=2 x+18 .$$

因为 k = 22：

$$2x + 18 = 22, \quad 2x = 4, \quad x = 2.$$

[/solution]

Answer
[答案] 2 [/answer]

A.1.4 生成流程和结构控制

数据生成流程。 我们的数据生成器遵循一个阶段性程序，类似于GSM-Infinite的前向和反向生成器：
1. 结构采样。我们首先采样定义依赖图的结构性参数：
* $op(G)$的目标操作数范围；
* 控制扇入和深度的图形状参数（例如，允许的入度、分层模式）；以及
* 附加到节点的操作类型$f_i \in \{+, -, \times, \div\}$。
这些选择决定了一个具有唯一查询节点$v^*$的分层DAG $G$。

抽象和实例参数化。给定$G$，我们采样抽象参数（变量角色和分解）和实例参数（叶节点上的数值），并使用上面定义的求值映射val按拓扑顺序评估所有节点的值。
上下文渲染。我们选择一个模板$\tau \in T$并应用渲染函数$\Phi(G, \tau)$来获得一个自然语言三元组（问题、问题、解决方案），决定哪些依赖关系是明确表述的（显式），哪些是隐含的。
前向与反向模式。遵循【索引：Zhou et al., 2025a, Gsm-infinite: How do your llms behave over infinitely increasing context length and reasoning complexity?, 2025, https://arxiv.org/abs/2502.05252】，我们支持两种生成模式：在前向模式中，我们生成一个标准的算术应用题，其中查询拓扑顺序中的最后一个节点。在反向模式中，我们将一个节点视为未知数，并提出一个方程形式的问题，模型必须解出该量，而图的其余部分保持完全指定。

二维测试平台。 通过共同改变(i)操作数$op(G)$和(ii)模板$\tau$，我们获得了一个清晰的二维测试平台，用于研究深度扩展和上下文迁移。通过从$(op(G), \tau)$-空间的不同区域采样，我们使用相同的框架为预训练、中训练和后训练定义了不同的数据分布。

A.1.5 去重和规范化

确保数据清洁。 为了保证训练和评估集之间的清洁性并避免污染，我们在渲染的三元组级别上执行基于精确哈希的去重。每个实例通过以下方式进行规范化：
* 将三元组（问题、问题、解决方案）序列化为规范化的字符串表示（例如，去除多余的空白并规范化数字格式），以及
* 对这个规范形式进行哈希以获得一个全局标识符。

我们丢弃集内和集间的任何重复哈希，确保没有相同的问题-解决方案三元组同时出现在训练和评估中。

A.2 任务设置

模型泛化能力的两个维度。 在实际部署中，语言模型被期望在两个互补的维度上进行推理泛化【索引：Setlur et al., 2025, e3: Learning to explore enables extrapolation of test-time compute for llms, 2025, https://arxiv.org/abs/2506.09026】、【索引：Zhou et al., 2025b, Does learning mathematical problem-solving generalize to broader reasoning?, 2025, https://arxiv.org/abs/2507.04391】、【索引：Huan et al., 2025, Does math reasoning improve general llm capabilities? understanding transferability of llm reasoning., 2025, https://arxiv.org/abs/2507.00432】。我们可控的数据集使这些维度变得明确，并允许我们探究预训练、中训练和后训练如何塑造每种类型的泛化。

符号表示。 令$f_{\theta}^{pre}$, $f_{\theta}^{mid}$, 和$f_{\theta}^{post}$分别表示预训练后、额外中训练后和后训练（RL）后的语言模型。我们用$Correct(f, G, \tau)$表示在模板$\tau$下从图$G$生成的实例上的正确性，使用下面评估协议中定义的严格指标。

外推（深度）泛化。 我们用它所见的操作数范围来参数化每个训练阶段$\phi \in \{pre, mid, post\}$。令$O_{\phi}$为阶段$\phi$训练分布中存在的$op(G)$值的集合，并令

$$\mathcal{O}_{\text{train}} = \mathcal{O}_{\text{pre}} \cup \mathcal{O}_{\text{mid}} \cup \mathcal{O}_{\text{post}}.$$

分布内评估条件使用$op(G) \in O_{train}$的图，而外推（分布外，OOD）条件则在以下图上评估：

$$\mathrm{op}(\mathcal{G}) > \max \mathcal{O}_{\text{train}}$$

如果一个模型在这些更长的、未见过的操作上保持高的过程验证准确率，同时在分布内操作上保持稳定，那么它就表现出外推泛化能力。通过不同的难度范围填充$O_{pre}$, $O_{mid}$, 和$O_{post}$，我们可以分离出每个阶段对深度泛化的贡献。

上下文（广度）泛化。 一个固定的推理图$G$可以在不同模板下被渲染成结构上等价的实例，

$$ \text{Struct}(\Phi(\mathcal{G}, \tau_a)) = \text{Struct}(\Phi(\mathcal{G}, \tau_b)) \quad \text{in principle,} $$

我们的数据集在训练期间是随机抽样的，并没有刻意地在模板间对齐图。因此，大多数图在训练期间只在部分上下文中被观察到。令$T_{train}^{\phi}$表示在训练阶段$\phi$中暴露的模板，而$T_{eval}$是更广泛的评估池，包括长尾模板。如果一个模型在阶段$\phi$时，当叙述表面形式改变时能够保持推理性能，即使新上下文在训练期间从未遇到过，那么它就展示了上下文泛化能力：

$$\text{Acc}(f_\theta^\phi, \mathcal{G}, \tau_a) \approx \text{Acc}(f_\theta^\phi, \mathcal{G}, \tau_b), \quad \tau_b \notin \mathcal{T}_\phi^{\text{train}}.$$

在此设置下，上下文泛化衡量的是模型是否学会了可迁移的推理基元，而不是记住了任务风格，从而使其能够将相同的结构化推理应用于已知的、未见的和长尾的叙述环境中。

A.3 训练设置

A.3.1 模型架构

模型选择与配置。 我们使用100M参数的仅解码器Qwen2.5架构【索引：Qwen et al., 2025, Qwen2.5 technical report, 2025, https://arxiv.org/abs/2412.15115】模型进行实验。详细的架构配置如表1所示。

A.3.2 分词器和输入表示

自定义分词器。 我们遵循“语言模型物理学”系列研究【索引：Ye et al., 2024, Physics of language models: Part 2.1, grade-school math and the hidden reasoning process, 2024, https://arxiv.org/abs/2407.20311】的做法，直接在我们的合成推理语料库上训练一个字节对编码（BPE）分词器。最终的词汇表有2200个词元（包括特殊词元）。所有的问题、题目和解决方案都使用最大序列长度为2048个词元进行分词。

A.3.3 超参数

预训练超参数。 所有实验都从一个在我们可控推理语料库上从头开始训练的100M参数Qwen2.5模型开始，使用100倍的词元与参数比率，在100亿个词元上进行预训练。我们使用2048个词元的上下文长度，512K个词元的批大小，学习率为$2 \times 10^{-4}$，权重衰减为0.1，使用余弦衰减，最小学习率为$3 \times 10^{-5}$，预热比例为5%，并在语料库上进行单次迭代。所有模型都以bf16精度进行训练。

中训练（继续预训练）超参数。 从预训练的检查点开始，我们在第5节中执行一个额外的可选课程。我们使用最大序列长度2048进行训练。我们使用512K个词元的全局批大小，学习率为$1 \times 10^{-4}$，权重衰减为0.1，余弦衰减，最小学习率为$3 \times 10^{-5}$，以及更高的预热比例15%。

后训练超参数。 最后，我们使用GRPO【索引：Shao et al., 2024, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, https://arxiv.org/abs/2402.03300】进行RL微调。我们使用1024个样本的全局批大小，最大提示和响应长度均为1024个词元，并进行两个训练周期。Actor使用$1 \times 10^{-6}$的学习率，PPO小批量大小为256，每个GPU的微批量大小为16，KL正则化系数为$10^{-3}$（低方差KL惩罚），熵奖励为零。在RL rollout期间，我们使用温度$T_{RL} = 1.0$，top-p = 1.0进行采样，不进行top-k截断（全核采样）。对于离线评估和报告，我们使用温度$T_{eval} = 0.7$，top-p = 1.0，top-k = -1（不截断）生成，每个问题最多生成1024个新词元。

性能阶梯。 性能阶梯根据任务难度定义了三个关键级别：1) 分布内任务(op=2-10)：目标是接近100%的pass@128准确率；2) OOD-edge任务(op=11-14)：确保非零的pass@128性能；3) OOD-hards任务(op=15-20)：目标是零pass@128，标志着模型的能力极限。后训练在能力边缘上进行，确保模型能泛化到更难的任务。这些性能级别的训练动态分解如图9所示。

图9: 不同操作范围下的预训练动态：分布内任务(op=2-10)，能力边缘OOD任务(op=11-14)，以及OOD-hard任务(op=15-20)。图表显示了在训练步骤中通过pass@k测量的性能。

A.4 过程验证评估

模型输出的解析。 对于一个给定的输入实例，其基准真相图为$(G, a^*)$，模型会生成一个自由形式的解$s$。我们将$s$确定性地解析为一个预测的依赖图

$$\hat{\mathcal{G}}=(\hat{\mathcal{V}}, \hat{\mathcal{E}}, \widehat{\mathrm{val}}), \quad \hat{a},$$

其中$\hat{V}$中的节点对应解中的命名中间量，$\hat{E}$编码了每一步所依赖的先前定义的量，$\widehat{val}$存储了每个节点的推断数值，$\hat{a}$是提取出的最终答案。解析器将解分割成“定义...为...”的步骤，从其使用的变量中推断每一步的依赖关系，并评估该步骤中最后一个可计算的算术表达式（如果需要，则回退到最后一个数字字面量）以获得数值。这产生了一个与基准依赖图对齐的模型推理轨迹的图级表示。

步骤级正确性评估。 设基准图为

$$\mathcal{G} = (\mathcal{V}, \mathcal{E}, \text{val}), \quad a^*,$$

其节点集为$V$，边集为$E$，值映射为val。我们在步骤级别上评估推理过程。对于每个基准节点$v \in V$，定义一个单步正确性指示器

$$\begin{aligned} s(v ; \hat{\mathcal{G}}, \mathcal{G})=\left\{\begin{array}{ll} 1, & \text { if } v \in \hat{\mathcal{V}}, \text{pa}_{\hat{\mathcal{G}}}(v)=\text{pa}_{\mathcal{G}}(v), \text{ and } \\ & \text{val}(v), \widehat{\text{val}}(v) \text{ are both defined and } \widehat{\text{val}}(v)=\text{val}(v), \\ 0, & \text{ otherwise,} \end{array}\right. \end{aligned}$$

其中$pa_G(v)$和$pa_{\hat{G}}(v)$分别表示$v$在基准图和预测图中的父节点集（依赖关系）。缺失节点、不正确的依赖集或不匹配的值都会导致$s(v; \hat{G}, G) = 0$。

过程准确率的定义。 接着，我们将一个预测推理轨迹的过程准确率定义为所有基准节点的平均步骤级准确率：

$$\text{ProcessAcc}(\hat{\mathcal{G}} ; \mathcal{G})=\frac{1}{|\mathcal{V}|} \sum_{v \in \mathcal{V}} s(v ; \hat{\mathcal{G}}, \mathcal{G}).$$

额外的预测节点$v \in V \setminus \hat{V}$是允许的，并且不影响ProcessAcc；它们对应于冗余但兼容的中间步骤。

完全正确的定义。 一个预测只有在推理图和最终答案都匹配时才被视为完全正确。我们通过一个验证正确性来形式化这一点：

$$\begin{aligned} \operatorname{VerifiedCorrect}(\hat{a}, \hat{\mathcal{G}} ; a^{*}, \mathcal{G}) = \begin{cases} 1, & \text{if } \operatorname{ProcessAcc}(\hat{\mathcal{G}} ; \mathcal{G}) = 1 \text{ and } \hat{a} = a^{*}, \\ 0, & \text{otherwise.} \end{cases} \end{aligned}$$

因此，本工作中报告的所有pass@k指标（例如，pass@1, pass@128）仅在模型(i)正确预测了每个基准步骤（步骤级过程准确率=1）并且(ii)得出了正确的最终答案时，才将一个样本视为正确。这个严格的标准确保了报告的增益反映了真实的、忠实的推理，而不是偶然的正确性。

A.5 §3的训练动态

不同后训练配方的NLL减少分析。 本节我们详细分析了第3节中不同后训练配方在外推泛化中的训练动态，及其在不同评估操作范围上对负对数似然（NLL）减少的影响。

图10: 与基础模型相比的NLL减少百分比。白色框表示RL训练的操作范围。随着评估范围与RL训练的操作偏离，NLL增益平滑衰减。值得注意的是，在op=11-14上进行RL在op=15-20上实现了最大的NLL减少。

NLL减少观察。 从图10中可以观察到，后训练在所有评估范围内都持续减少了NLL，其中最显著的增益发生在op=11-14范围内。这表明模型有效地学习了组合原子技能来解决更复杂的问题。

后训练动态分析。 我们进一步研究了不同数据配方在后训练期间的奖励动态。

图11: 不同后训练数据配方下的奖励动态。在op=9-12和op=11-14任务上进行RL，这些任务被校准到模型的能力边缘，从而带来了推理的真正改进。然而，当任务难度过易或过难时，奖励停滞不前，表明学习进展有限。

奖励动态观察。 从图11中我们观察到，在与模型能力边缘对齐的任务（op=9-12和op=11-14）上进行后训练，会导致显著的奖励提升，表明学习是有效的。相反，当任务太容易（op=7-10）或太难（op=17-20）时，奖励趋于平稳，表明在这些区域的学习进展有限。

A.6 后训练对上下文泛化影响的详细分析

本节详细分析了在预训练期间给定原子推理基元的情况下，不同后训练数据配方如何影响对长尾上下文的上下文泛化。

A.6.1 当推理基元在预训练期间共享时

研究背景与问题。 除了掌握基本的推理技能，模型泛化的一个重要维度是上下文泛化——即跨不同问题上下文（如变化的表面叙事或领域）迁移学习到的推理行为的能力。本节我们研究后训练是否能激励模型将推理能力泛化到在预训练期间很少观察到的长尾或代表性不足的上下文。

任务设置。 我们研究两种不同的问题上下文：一个频繁的、规范的上下文A和一个长尾的上下文B，两者共享相同的底层推理先验（在我们的案例中是逻辑-算术推理，详细的上下文设置见附录A.9）。预训练语料库包含99.9%的上下文A和仅0.1%的上下文B，两者都涵盖op=2-20。在后训练期间，我们在20万个样本中改变对上下文B的曝光度，使用不同的比例：0%、2%、10%、50%和100%。

图12: 在后训练中以不同曝光度接触上下文B后，在上下文泛化任务上的pass@k性能。由于在预训练期间共享了推理基元，即使在后训练中曝光有限或没有曝光，模型也表现出向上下文B的强大迁移能力。

观察5：共享推理基元促进了后训练迁移。 在预训练期间共享推理基元的情况下，后训练期间对上下文B的曝光度与在上下文B上的性能呈正相关。值得注意的是，即使在后训练期间完全没有接触上下文B，模型仍然实现了显著的迁移，这突显了共享基元在实现上下文泛化中的作用。

结论5：共享原子基元是后训练泛化的关键。 当原子基元被共享时，后训练可以激励向长尾上下文的泛化。引人注目的是，即使在后训练期间对上下文B的曝光度为0%，模型也实现了 substantial 的迁移，这凸显了预训练期间共享推理结构的关键作用。

A.6.2 当预训练期间仅暴露原子基元时

研究背景。 接下来，我们考察当基础模型在预训练期间仅接触过长尾上下文中的基本原子基元时的上下文泛化情况。

任务设置。 我们使用与上文相同的上下文数据分布，但在预训练期间将上下文B的数据限制为仅原子操作，而上下文A则涵盖全部范围。预训练语料库包含99%的上下文A（op=2-20）和仅1%的上下文B，其中上下文B被限制为原子操作（op=2）。因此，模型主要通过上下文A学习推理结构，而对上下文B的表面形式接触最少。在后训练期间，我们使用20万个样本进行RL微调，其中上下文B数据的比例在五个区域变化：0%、1%、10%、50%和100%。详细的数据配方见附录A.9。

图13: 基础模型仅限于上下文B基本原子时的不同上下文pass@k性能。在上下文A上进行后训练保持了稳定的性能，而在RL期间暴露10%的上下文B则能实现上下文迁移。

观察6：少量曝光即可触发显著迁移。 如图13所示，仅在上下文A上进行后训练或对上下文B的曝光极度稀疏（0-1%）时，模型在上下文A内保持了强劲性能，但对长尾上下文B的迁移微乎其微。然而，一旦引入少量上下文B数据——约占总样本的10%——上下文B的性能就急剧提升，pass@128准确率增加了超过76个百分点。进一步增加上下文B数据的比例（50%、100%）带来的收益递减，表明一旦有最基本的监督，RL就能迅速建立稳健的跨上下文推理。值得注意的是，即使后训练使用100%的上下文B数据——与主导的预训练上下文完全不同——上下文A的性能仍然稳定。这表明RL使模型能够学习可迁移的推理策略，这些策略可以跨越表面形式，同时保留在先前掌握的上下文中的能力。

结论6：RL在极端不平衡下实现稳定的跨上下文泛化。 即使基础模型在预训练期间对长尾上下文的接触极少，RL微调也能通过利用共享的推理结构，将推理能力跨领域迁移。

A.6.3 §A.6.2的训练动态

不同曝光度下的奖励动态。 我们绘制了§A.6.2中使用的不同数据配方的后训练奖励动态，以进一步了解在RL期间对长尾上下文的不同曝光度如何影响学习进程。

奖励动态观察。 从图14中我们可以观察到，当后训练期间对上下文B的曝光极度有限（0-1%）时，奖励趋于平稳，表明学习进展甚微。然而，随着中等程度的曝光（10-100%），奖励显著提高，反映了有效的学习和向长尾上下文的迁移。

A.7 预训练对外推泛化影响的详细分析

研究背景。 预训练定义了后训练可以组合和扩展的原子推理基元。如果基础模型在预训练期间已经遇到过中等复杂的问题，后训练可能会将这些基元推向更深层次的组合推理。否则，后训练可能缺乏探索其继承能力之外的支架。因此，我们研究了改变预训练难度如何影响后续的外推泛化。

任务设置。 我们将后训练配方固定为来自op=11-14范围的20万个样本，这在之前被确定为能力边缘（见图3）。然后，我们改变预训练期间包含的“困难”数据（op=7-10）的比例，以评估接触复杂基元如何影响基础模型在RL后的泛化能力。（详细数据配方见附录A.9。）

图14: 不同后训练数据配方下的奖励动态。当RL对上下文B的曝光极度有限（0-1%）时，奖励停滞不前。然而，随着中等程度的曝光（10-100%），奖励显著提高，反映了有效的学习和迁移。

图15: 在op=11-14上进行后训练后，外推任务上的pass@128性能，在预训练期间不同困难数据曝光水平下的表现。

观察7：预训练覆盖度与RL增益的权衡。 如图15所示，预训练期间对困难问题更广泛的接触持续改善了基础模型和后训练模型的性能。然而，随着预训练变得更加全面，RL带来的边际增益减小。当预训练已经覆盖了相当一部分中等深度的任务时，RL只增加了适度的改进。相比之下，当预训练包含有限但不可忽略的困难基元接触时（例如，20%的op=7-10），RL产生了最大的相对提升——将op=15-20上的pass@128准确率提高了超过22个百分点。这表明，当模型的先验能力是部分的——强大到足以支持探索，但又不完整到留有发现空间时，RL最有效。

结论7：预训练奠定基础，RL扩展之。 在预训练期间对组合基元的丰富接触使RL能够将推理深度推向预训练范围之外。然而，一旦这些基元被完全掌握，RL的益处就会逐渐减弱，这突显了两个阶段的互补作用。

A.7.1 §A.7的训练动态
不同预训练配方下的后训练动态。 我们分析了在不同预训练数据配方下，后训练期间的训练动态。

图16: 不同预训练数据配方下的奖励动态。在预训练期间有中等难度数据曝光（20-50%）的模型，在后训练期间表现出显著的奖励提升，表明有效的学习和外推。相反，难度数据曝光过少（0%）或过多（100%）的模型奖励增益有限，表明学习进展受限。

A.8 §4的训练动态

不同预训练配方下的上下文泛化训练动态。 本节分析了第4节中不同预训练数据配方在上下文泛化任务上的训练动态。从图17中我们观察到，即使在预训练期间只提供基本基元，对长尾上下文有中等程度的曝光比例对于模型在后训练期间取得显著的奖励提升也是必要的。

图17: 不同预训练数据配方下的奖励动态。对长尾上下文曝光极少的模型在后训练期间没有奖励提升。而有中等到完全曝光的模型则显示出显著的奖励提升，表明了有效的学习和上下文泛化。

A.9 后训练和预训练的数据配方

数据配方详情。 本节详细说明了在§3、§4、§A.6.1、§A.6.2和§A.7中采用的数据配方。表2总结了在不同实验部分中使用的具体操作数范围、上下文模板和训练预算。

表2: §3, §4, §A.6.1, §A.6.2, 和 §A.7 中预训练/后训练实验的数据配方。op(G) 范围表示每个训练阶段的操作数。上下文 A, B, C 对应不同的模板：A = 动物-动物园，B = 教师-学校，C = 电影-节日。不同操作范围和上下文的数据配方在指定比例内均匀采样。阴影单元格表示被消融的设置。

A.10 不同计算预算下的中/后训练混合

本节内容。 本节我们首先详细说明了中训练和RL等效的计算预算公式，然后提供了在不同总计算预算下结合中训练和后训练的确切数据配方。

A.10.1 中训练和RL等效的计算预算

训练计算量。 遵循Chinchilla扩展定律【索引：Hoffmann et al., 2022, Training compute-optimal large language models, 2022, https://arxiv.org/abs/2203.15556】，一个拥有$P$个非嵌入参数的仅解码器Transformer在$T$个词元上训练，大约消耗

$$C_{\text{train}} \approx 6PT \quad \textit{flops.}$$

因此，一个预算为$T_{mid}$的中训练阶段会产生$C_{mid} = 6PT_{mid}$的浮点运算。

细粒度RL计算量。 对于on-policy的GRPO，计算可以分解为：
* Rollout：actor模型前向传播（$2P$），
* Reference（可选）：reference模型前向传播（$2P$），
* Policy Update：前向传播（$2P$）和反向传播（$4P$）。

将这些项相加得到：

$$C_{\mathrm{RL}}=(8+2 \gamma) P N r L_{\text {total}},$$

其中$\gamma \in \{0, 1\}$切换是否进行reference模型的前向传播，$N$是RL样本数，$r$是rollout大小，$L_{total}$是总序列长度（包括提示和补全）。

中训练词元等效性。 通过公式4进行归一化，得到等效的中训练词元成本：

$$T_{\mathrm{RL}}=\frac{C_{\mathrm{RL}}}{6 P}=\left(\frac{4}{3}+\frac{\gamma}{3}\right) N r L_{\text {total } .}$$

当$\gamma = 1$时，我们得到正文中使用的等效性：

$$T_{\mathrm{RL}}=\frac{5}{3} N r L_{\text {total }} .$$

预算分配和步骤计算。 给定总预算$T$和RL比例$\beta$，

$$T_{\mathrm{mid}}=(1-\beta) \cdot T, \quad T_{\mathrm{RL}, \mathrm{eq}}=\beta \cdot T .$$

相应的RL样本数$N(p)$和更新步骤为：

$ N(\beta) = \frac{3}{5} \cdot \frac{\beta T}{rL_{total}}, \quad \text{steps}_{RL}(p) = \frac{N(\beta)}{B} $

其中$r = 6$是rollout大小，$L_{total} = 2048$是总序列长度，$B = 1024$是RL批大小，$T$是总词元预算。中训练步骤为：

$$\text{steps}_{\text{mid}}(\beta) = \frac{T_{\text{mid}}}{B_{\text{mid}} \cdot L_{\text{mid}}},$$

其中$B_{mid} = 512 \times 1024$是中训练批大小，$L_{mid} = 2048$是中训练序列长度。

任务设置。 我们使用100亿个词元进行预训练，其中20%为op=2-4，30%为op=5-7，50%为op=8-10。为避免中训练期间的灾难性遗忘，我们在中训练期间使用20%的预算用于op=2-10，80%用于op=11-14。为公平比较，RL使用与中训练相同的数据分布。表3详细说明了在不同总词元预算$T$和中训练比例$p$下，中训练和RL的确切步骤数。我们在不同总计算预算下，对全中训练、全RL、轻度RL（$\beta = 0.2$）、中度RL（$\beta = 0.5$）和重度RL（$\beta = 0.8$）进行中/后训练。

观察8：计算预算与混合策略的相互作用。 如图18所示，在所有计算预算下，轻度RL在OOD-edge任务上取得了最佳的pass@1性能。而重度RL则持续在OOD-hard任务上获得最高的pass@1性能。对于pass@128，当计算预算有限时（4.2B词元），重度RL在OOD-hard设置中表现最佳。当预算增加时（8.4B词元及以上），全RL在OOD-hard任务上取得了最高的pass@128性能。

表3: 不同计算预算规模下的实验配置。我们固定中训练批大小为512K词元。该表将总词元预算T映射到纯中训练(p=1.0)、纯RL(p=0.0)和混合分配所需的具体步骤数。

结论8：中训练和后训练在不同计算预算下互为补充。 对于pass@1任务，中训练和RL后训练的组合始终优于单独使用其中一种方法。对于pass@128，最佳的后训练分配取决于可用的计算预算：在资源有限的情况下，将约80%的资源分配给RL可以在稳定性和探索之间取得平衡；而在计算资源更充足的情况下，全RL能最大化外推增益。

PaperCache

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

A1 主要贡献

A3 背景知识/关键Observation/设计原则

2.1 可控的合成推理数据集

2.2 任务设置

2.3 评估协议

2.4 训练设置

A2 方法细节

3 后训练何时能激励模型超越基础模型进行推理？

4 预训练的曝光度如何塑造后训练的泛化能力？

5 中训练如何与后训练相互作用？

6 通过结果奖励中的过程监督来缓解奖励 hacking

A4 实验环境

A5 实验结果

A6 结论

A7 附录

A.1 数据生成框架

A.2 任务设置

A.3 训练设置

A.4 过程验证评估

A.5 §3的训练动态

A.6 后训练对上下文泛化影响的详细分析

A.8 §4的训练动态

A.9 后训练和预训练的数据配方

A.10 不同计算预算下的中/后训练混合

💬 评论讨论

On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models

A1 主要贡献

A3 背景知识/关键Observation/设计原则

2.1 可控的合成推理数据集

2.2 任务设置

2.3 评估协议

2.4 训练设置

A2 方法细节

3 后训练何时能激励模型超越基础模型进行推理？

4 预训练的曝光度如何塑造后训练的泛化能力？

5 中训练如何与后训练相互作用？

6 通过结果奖励中的过程监督来缓解奖励 hacking

A4 实验环境

A5 实验结果

A6 结论

A7 附录

A.1 数据生成框架

A.2 任务设置

A.3 训练设置

A.4 过程验证评估

A.5 §3的训练动态

A.6 后训练对上下文泛化影响的详细分析

A.8 §4的训练动态

A.9 后训练和预训练的数据配方

A.10 不同计算预算下的中/后训练混合

💬 评论讨论

登录

注册

忘记密码

重发验证邮件