Solving Math Word Problems with Process- and Outcome-Based Feedback

发表时间: 2022-11 · arXiv:2211.14275 (DeepMind)

作者/机构: Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins (DeepMind)

A1 主要贡献

本文旨在解决一个核心问题：在训练能够生成逐步推理过程的语言模型时，应如何进行监督？具体而言，文章对比了两种主要的监督方法：基于结果（outcome-based）的方法，仅监督最终答案的正确性；以及基于过程（process-based）的方法，监督推理过程中的每一步。作者指出，仅关注最终答案的正确性可能会导致模型虽然给出了正确答案，但其推理过程却是错误的。这种现象在教育等现实世界领域中难以发现且问题严重。

研究目标：
本文对基于过程和基于结果的监督方法在自然语言任务上进行了首次全面的比较。研究使用了GSM8K数据集（小学生数学应用题）作为实验平台，系统地评估了包括少样本提示（few-shot prompting）、监督微调（supervised fine-tuning）、强化学习（reinforcement learning）等多种训练方法。

核心创新与发现：
1. 提升现有技术水平：本文提出的最佳方法（结合监督学习和基于奖励模型的强化学习）显著提升了GSM8K数据集上的表现，将最终答案错误率从16.8%降低到12.7%，并将正确答案中的推理错误率从14.0%大幅降低到3.4%。
2. 不同监督方法对最终答案错误率的影响：研究发现，基于结果和基于过程的监督方法在最终答案错误率上表现相似。无论是否使用奖励模型，两种方法训练出的语言模型都能达到相近的最终答案准确率。
3. 奖励模型能够模拟过程式反馈：一个令人意外的发现是，即使是仅用最终答案正确性（基于结果）来训练的奖励模型（ORM），其预测结果也更倾向于与过程的每一步是否正确（基于过程的标签）保持一致，而非其自身的训练目标（最终答案是否正确）。这解释了为何奖励模型能有效降低推理过程中的错误。
4. 降低推理错误率的关键：研究明确指出，要实现较低的推理错误率，必须采用基于过程的反馈，或者使用能够模拟这种反馈的奖励模型。直接针对最终答案正确性进行强化学习的模型的推理错误率始终较高。

下图概览了本文所研究的各种建模和训练组件及其相互关系。
图1 | 方法概览。此示意图概述了所考虑的各种建模和训练组件以及它们如何组合在一起。为便于阅读，省略了一些细节（在文本中介绍）。

A3 背景知识

2.1 数据集与评估指标

数据集GSM8K：所有实验均在GSM8K数据集【【11】Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.】上进行，该数据集由小学生数学应用题组成。选择该数据集是因为它是一个有竞争力的基准，并且包含了自然语言的推理轨迹。由于需要招募具备领域专业知识的人类标注员来准确评估推理轨迹，前期成本巨大，因此本文专注于单个数据集。附录A的表2展示了几个问题示例。研究人员从原始训练集中划分出256个样本作为自己的验证集，剩余7118个训练样本和1319个测试样本。

评估指标：本文报告了在GSM8K测试集上评估所有方法的两个主要指标：
1. 最终答案错误率（Final-answer error rate）：指方法未能产生正确最终答案的问题所占的比例。由于GSM8K的所有最终答案都是整数，这可以通过精确字符串匹配来衡量。
2. 推理轨迹错误率（Trace error rate）：指在最终答案正确的问题中，方法产生至少一个不正确推理步骤的比例。该指标通过人类标注员对每个推理步骤正确性的标注来估计，使用的评分界面在2.7节中讨论。

指标选择的动机：本文将最终答案错误和推理轨迹错误作为两个独立的指标，因为从安全角度看，研究人员特别关注那些在使用易于计算的代理指标（此处为最终答案错误）后仍未被检测到的错误。例如，在教育场景中，向学生展示正确的解题步骤至关重要。我们可以轻易过滤掉那些导致错误答案的错误推理过程，但要过滤掉那些碰巧得出正确答案的错误推理过程则要困难得多。此外，本文还报告了选择性最终答案错误率（Selective final-answer error rate）以评估允许模型弃权时的性能，以及在MATH数据集的预代数问题上的分布外（OOD）错误率以评估泛化能力，分别在3.4节和3.5节中描述。

2.2 训练：概览

任务定义：本文的目标是训练一个用于序列到序列任务【【62】Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in neural information processing systems, 27.】的系统，该系统以问题文本为输入，生成答案文本作为输出。对于数学应用题，答案是一个完整的推理轨迹：一个由换行符分隔的步骤序列，其中最后一步应提供最终答案。对于GSM8K，最终答案总是一个整数。

整体方法：本文的方法大致遵循了先前关于语言模型强化学习（RL for LMs）的工作【【77】Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.】,【【46】Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., ... & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.】,【【42】Menick, J., Trebacz, M., Mikulik, V., Aslanides, J., Song, F., Chadwick, M., ... & Irving, G. (2022). Teaching language models to support answers with verified quotes. arXiv preprint arXiv:2203.11147.】。研究人员使用一个语言模型（LM）作为策略（policy），该策略将问题陈述和已生成的步骤映射到下一步。在强化学习（RL）的形式化中，这被视为将每一步作为一个动作（action），而观察（observation）由至今为止的所有词元（token）提供。该策略可以通过少样本提示、监督微调（2.3节）或强化学习（2.6节）获得。研究人员还训练了作为奖励模型（reward models，2.4节）的语言模型，这些模型对策略提出的完整或部分补全进行评分，并可用于对策略的样本进行重排（reranking），或作为强化学习期间的奖励来源。在接下来的小节中，将描述如何训练和组合这些组件。

A2 方法细节

2.3 监督微调

SFT作为过程式方法：在监督微调（Supervised Finetuning, SFT）中，我们微调一个语言模型，以最大化给定输入词元序列下目标词元序列的对数似然。在本文中，我们将SFT用作一种基于过程的方法，具体做法是：将GSM8K数据集中提供的推理轨迹作为目标词元，将问题陈述作为输入词元。这与仅使用最终答案作为目标的基于结果的方法形成对比。

训练细节：我们使用AdamW优化器【【41】Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.】，学习率为$2 \times 10^{-6}$，批处理大小为256。一旦验证集上的语言建模损失开始增加，我们便停止微调。对于我们的SFT模型，这发生在70个步骤之后，大约相当于训练集上的2个多一点的周期（epoch）。

2.4 奖励模型

两种奖励模型（RM）：本文评估了两种主要的奖励模型（RMs）训练方法【【10】Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.】,【【77】Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.】,【【42】Menick, J., Trebacz, M., Mikulik, V., Aslanides, J., Song, F., Chadwick, M., ... & Irving, G. (2022). Teaching language models to support answers with verified quotes. arXiv preprint arXiv:2203.11147.】（也称为验证器【【11】Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.】）。在这两种方法中，我们将RM实现为一个语言模型，训练它在每一步之后预测一个二元标签，即‘正确’或‘不正确’的词元。
* 基于结果监督的奖励模型（ORM）：每一步的二元标签指示该完整样本产生的最终答案是否与参考答案匹配，这是由Cobbe等人（2021）【【11】】提出的。一个在每一步都最大化ORM分数的策略，实际上是在最大化RM在每一步估计的最终达到正确答案的概率。
* 基于过程监督的奖励模型（PRM）：每一步后的二元标签指示到目前为止的步骤是否正确。由于我们缺乏可靠的程序化方法来确定中间步骤的正确性，我们使用人类标注来获取这些标签（如2.7节所述）。一个最大化PRM分数的策略，会选择每一步来最大化RM估计的到目前为止步骤正确的概率。如果到目前为止的步骤是正确的，这通常意味着这样的策略会最小化在当前步骤引入错误的概率。如3.2节所报告，我们发现这种方法优于Li等人（2022）【【39】Li, Y., Lin, Z., Zhang, S., Fu, Q., Chen, B., Lou, J. G., & Chen, W. (2022). On the advance of making language models better reasoners. arXiv preprint arXiv:2206.02336.】的方法，后者与我们的PRM类似，但用基于中间计算结果字符串匹配的启发式方法替代了人类评估。

训练细节：除非另有说明，对于所有包含ORM的方法，我们使用该方法策略生成的样本来训练ORM，每个问题抽取$k = 96$个样本，温度为1.0。我们遵循Cobbe等人（2021）【【11】】的方法，使用dropout进行正则化，dropout参数为0.1，并复用2.3节中SFT的超参数。为了在基于SFT的方法中加速学习，我们使用SFT模型参数初始化ORM的训练；而对于基于少样本的方法，我们从基础的预训练LM初始化。对于PRM，我们从SFT策略中为每个问题标注3个样本，并限制在SFT多数预测（见2.5节）不正确的问题上，以便最大限度地利用我们的人类标注预算。由于我们的人类标注数据集规模较小（1560个完整解决方案），我们将PRM的参数初始化为ORM的参数，并将学习率降低到$1 \times 10^{-7}$。RM的损失曲线有一些波动，因此我们选择在2000步之前验证损失最佳的RM。

2.5 解码

解码过程：在所有测试时解码中，我们首先生成$k = 96$个完整解决方案的样本，然后通过对样本进行集成（ensembling）或使用RM来选择最佳样本。在早期实验中，我们也尝试了在每一步生成后进行RM重排（而不是在整个解决方案生成后），但发现这导致性能稍差，最终答案错误率增加了1-2%。我们使用温度$T = 1.0$进行采样，并使用Cobbe等人（2021）【【11】】的语法，让模型决定何时使用计算器。

样本选择方法：我们使用两种方法来选择最佳样本。
* 多数投票（Majority voting）：当没有RM可用时，我们使用多数投票。为此，我们首先从$k$个样本中选择最常见的最终答案，然后从产生该选定最终答案的样本中随机选择一个。这被Wang等人（2022）【【68】Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., & Zhou, D. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.】称为“自洽性”（self-consistency），并且与更通用的技术如最小贝叶斯风险解码（Minimum Bayes Risk decoding）【【34】Kumar, S., & Byrne, W. (2004). Minimum bayes-risk decoding for statistical machine translation. Technical report, JOHNS HOPKINS UNIV BALTIMORE MD CENTER FOR LANGUAGE AND SPEECH PROCESSING (CLSP).】相似。
* RM加权解码（RM-weighted decoding）：当有RM时，我们使用RM加权解码，也被Li等人（2022）【【39】Li, Y., Lin, Z., Zhang, S., Fu, Q., Chen, B., Lou, J. G., & Chen, W. (2022). On the advance of making language models better reasoners. arXiv preprint arXiv:2206.02336.】称为“验证器投票”（verifier-voting）。在这里，我们根据RM估计的正确性概率对每个样本进行加权，选择总权重最大的最终答案，然后从产生该选定最终答案的样本中选择RM分数最高的样本。更正式地，我们选择最终答案 $a^* = \arg\max_a \sum_{s_i: \text{final\_ans}(s_i)=a} \text{rm\_prob}(s_i)$，其中 $s_1, ..., s_k$ 是模型样本，然后根据 $s^* = \arg\max_{s: \text{final\_ans}(s)=a^*} \text{rm\_prob}(s)$ 选择最佳样本。与简单地选择RM分数最高的样本相比，这种方法效果稍好（对于SFT模型，最终答案错误率降低约1%，对于RL模型稍多）。然而，我们注意到，多数投票和RM加权解码都因其依赖于最终答案之间的精确字符串匹配而通用性稍差。

2.6 通过专家迭代进行强化学习

专家迭代元算法：我们所有的RL实验都使用专家迭代（expert iteration）【【59】Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Hassabis, D. (2017). Mastering the game of go without human knowledge. nature, 550(7676), 354-359.】,【【4】Anthony, T., Tian, Z., & Barber, D. (2017). Thinking fast and slow with deep learning and tree search. Advances in Neural Information Processing Systems, 30.】。作为一个元算法，专家迭代在两个高级操作之间交替进行。在策略改进（policy improvement）中，我们将基础策略与搜索过程结合，以从所谓的专家策略中产生样本。然后在蒸馏（distillation）中，我们对这些专家样本进行监督学习，以将基础策略改进为专家策略。我们使用5个周期，并根据RM加权解码（或在没有RM时使用多数投票）的最终答案测试错误率，选择5个周期中最好的模型。

基于SFT与基于少样本的实现：初始的基础策略可以是SFT策略，也可以是我们基础LM的5样本提示版本。我们特别指出，除了用于提示的5个随机训练样本外，所有基于少样本的方法都从未使用GSM8K数据集中提供的中间推理步骤、我们的人类标注或任何源自这些数据的模型。当从SFT模型初始化时，我们遵循Polu和Sutskever（2020）【【54】Polu, S., & Sutskever, I. (2020). Generative language modeling for automated theorem proving. arXiv preprint arXiv:2009.03393.】的做法，复用每次迭代的专家样本，因此我们的训练集每个周期都会增长。我们不对少样本方法这样做，因为在该设置下，早期周期的样本有许多我们不希望RL模型模仿的推理错误。相应地，这两种情况之间存在一些微小的实现差异，我们在策略改进和蒸馏过程的详细描述中会指出。

策略改进：我们考虑策略改进过程的三个版本（图2）。
* Final-answer RL：也称为“自教推理器”（Self-taught Reasoner），由Zelikman等人（2022）【【76】Zelikman, E., Wu, Y., & Goodman, N. D. (2022). Star: Bootstrapping reasoning with reasoning. arXiv preprint arXiv:2203.14465.】提出，我们为每个问题生成$k$个完整轨迹，并按最终答案的正确性进行过滤。对于少样本版本，我们选择所有产生正确最终答案的轨迹；对于基于SFT的版本，我们每个问题只使用一个随机选择的样本。
* ORM-RL：我们为每个问题生成$k$个完整轨迹，并根据ORM模型选择得分最高的样本。
* PRM-RL：我们将每一步视为一个独立的片段（episode）。在每一步，我们生成$k$个候选步骤，选择PRM分数最高的候选者，并从选定的步骤继续，直到模型输出带有最终答案指示文本的步骤，或达到最多15个步骤。
我们在所有实验中设置$k=96$。对于基于少样本的方法，我们在每次专家迭代后重新训练RM。对于基于SFT的方法，我们跳过此步骤并使用固定的RM，因为在初步实验中，这并没有产生显著差异，这有些出人意料。
$图2 | 策略改进。此示意图总结了Final-Answer RL、ORM-RL和PRM-RL案例的不同策略改进算子，正文中对此进行了描述。$

蒸馏：对于蒸馏，我们使用与SFT相同的超参数。与SFT一样，我们通过验证损失进行早停，其中我们的验证集由验证集上的专家策略样本构成。对于基于SFT的方法，我们在每个蒸馏步骤中用SFT参数进行初始化；而对于基于少样本的方法，我们用基础模型参数进行初始化。

2.7 数据标注

标注过程：如2.4节所述，PRM是在指示“到目前为止的步骤是否正确”的逐步标签上训练的。为了收集这些数据，我们向人类标注员展示问题陈述、GSM8K的参考解决方案以及生成的模型解决方案，并要求他们指出模型步骤中第一个主要错误（如果存在）。我们的指南将“主要错误”定义为“所表达的信息不正确，或者如果不撤销该步骤就无法再达到正确解决方案的步骤”。根据这些标注，我们可以为每个步骤标记一个二元标签，指示到目前为止的步骤是否正确：第一个主要错误之前的所有步骤被标记为‘正确’，其余的被标记为‘不正确’。

数据清洗和统计：我们通过移除标注员间一致性低（在20%的双重标注解决方案上测量）的样本以及被标注员标记为模糊的GSM8K问题样本，进行少量数据集清洗。这移除了约20%的数据，留下了530个训练集问题上的1560个模型样本的标注，对应9856个步骤级二元标签。对于验证集，我们使用相同的程序，但增加了双重标注和论文作者的人工审查以解决标注员之间的分歧。我们的验证集包含162个模型样本，共913个步骤。对于评估，我们为每个模型使用了200个最终答案正确的问题。这在表1中的10个模型上都进行了，同样采用了双重标注。我们在附录B中描述了数据收集程序的全部细节。

表1 | 结果概览。我们展示了推理轨迹和最终答案的错误率。我们建议在阅读或阅读完第3节中关键结果的描述后，再结合此表进行理解。推理轨迹错误率是所有评分者的平均值。括号中，我们提供了一个最小-最大范围，这取决于错误是需要两位评分者都同意（最小）还是只需要一位评分者同意（最大）。虽然推理轨迹错误率存在显著的噪音，但我们仍然可以观察到总体趋势。在每个组内，我们将方法从最基于结果的（顶部）到最基于过程的（底部）排序，除了少样本模型，它没有需要监督的微调过程。

A4 实验环境

数据集:
- GSM8K: 主要数据集，用于训练和评估。包含7118个训练样本，256个自建验证样本和1319个测试样本。数据集由小学生数学应用题及其自然语言推理步骤组成。
- MATH: 用于评估模型的分布外（OOD）泛化能力。使用了该数据集的预代数（pre-algebra）部分。
模型架构:
- 所有模型均基于一个大型预训练语言模型【【28】Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., Rutherford, E., ... & Sifre, L. (2022). Training compute-optimal large language models. arXiv preprint arXiv:2203.15556.】（即Chinchilla模型）。论文未指明具体的模型规模。
硬件配置:
- 论文未提供GPU型号、数量、平台或CPU等具体硬件配置信息。
软件配置:
- 实现: 监督微调（SFT）、奖励模型（RM）训练和强化学习（RL）均基于先前工作【【77】Ziegler et al., 2019】,【【46】Nakano et al., 2021】,【【42】Menick et al., 2022】的框架实现。
- 优化器: AdamW。
- 核心依赖: 基础模型来自 Hoffmann et al. (2022)。

A4 实验结果

实验结果总结于表1和图3。ORM-RL和PRM-RL模型将最终答案错误率降至13%以下，优于当前最佳水平（16.8%）【【39】Li et al., 2022】。当允许模型在30%的问题上弃权时，错误率进一步降至2.7%。相应的推理轨迹错误率为3.4%和3.8%，显著优于先前最佳工作报告的14%【【68】Wang et al., 2022】,【【69】Wei et al., 2022】。

图3 | 推理轨迹和最终答案错误。本文研究的方法与基线的比较。对于没有推理轨迹错误率数据的方法，使用垂直线表示。图表外的点，其最终答案错误率在括号中显示。

主要发现总结如下：

仅监督最终答案足以获得较低的最终答案错误率：基于结果的Few-shot+Final-Answer RL模型与基于过程的SFT模型取得了相似的最终答案错误率，无论是在没有奖励模型（22.3% vs. 23.5%）还是在使用ORM（14.8% vs. 16.6%）的情况下。这表明，在最终答案正确性已足够的情况下，基于结果的方法可以成为一种标签高效且性能有竞争力的方法。
ORM监督的奖励模型能近似PRM标签：尽管ORM仅被训练来预测最终答案是否正确，但图4显示，ORM的预测与PRM标签（过程正确性）的一致性（85%）高于其与自身训练目标ORM标签（结果正确性）的一致性（77%）。作者推测，这是因为ORM学习识别步骤是否正确比其内部计算最终答案来检查答案更简单。RM重排能显著改善推理轨迹错误率（从11.4%降至4.4%）也支持了这一点。然而，作者提醒不要过度泛化此结论，这可能具有领域特异性。

图4 | RM与RM标签之间的一致性矩阵。我们关注ORM的预测（黄色框），但为了完整性提供了完整的一致性矩阵（其结构是对称的）。值得注意的是，ORM模型与PRM标签的一致性高于其与ORM标签的一致性。结果是基于PRM验证集上的所有步骤。

低推理轨迹错误率需要过程式反馈或模拟它的奖励模型：图3显示，尽管最终答案错误率相似，但基于结果的Few-shot+Final-Answer RL的推理轨迹错误率（19.8%）显著高于基于过程的SFT模型（11.4%）。在使用RM重排后，这种差异依然存在（12.4% vs. 4.4%/3.5%）。然而，当使用ORM来训练少样本RL模型（Few-shot+ORM-RL）而不是直接针对最终答案正确性进行训练时，推理轨迹错误率从12.4%显著下降到5.5%，大大缩小了差距。这得益于前述发现，即ORM基本上学会了模拟PRM，从而使模型能从模拟的过程式反馈中学习。

3.1 无奖励模型

比较: SFT（过程式）和Few-shot+Final-Answer RL（结果式）的最终答案错误率相近，但SFT的推理轨迹错误率显著更优（11.4% vs 19.8%）。
影响: 在SFT模型基础上应用Final-Answer RL，最终答案错误率略有下降（22.3% → 20.2%），但推理轨迹错误率反而上升（11.4% → 12.1%）。这支持了结果式方法会寻找“歪路”来得到正确答案的观点（见表2示例）。
微调 vs. 提示: 微调（SFT）性能远超仅使用提示（Few-shot）。5样本提示+多数投票的最终答案错误率为41.5%，而SFT模型为22.3%，验证了微调的必要性。

表2 | 推理轨迹错误示例。在这个从Few-shot+Final-Answer RL模型中精心挑选的柠檬例子中，最终答案是正确的，但推理步骤不正确。因为Final-Answer RL只为最终答案错误进行优化，所以中间步骤不必对人类评估者来说是可理解的，或者在标准英语语义下是正确的。

3.2 仅使用奖励模型进行重排

效果: 奖励模型（RM）为推理轨迹和最终答案的准确性都带来了显著提升。对于SFT模型，RM重排将推理轨迹错误率从11.4%降至5%以下，最终答案错误率从22.3%降至15%以下。
对比: 本文的PRM方法优于Li等人（2022）【【39】】提出的基于启发式规则的“步级投票验证器”，后者最终答案错误率为15.9%。

3.3 使用奖励模型进行强化学习

少样本 vs. SFT: 对于少样本模型，RL将最终答案错误率减半，效果显著。而对于已用SFT微调过的模型，RL带来的增益相对温和，主要在贪心解码（greedy decoding）时有明显提升（41.1% → 31.2%）。
RM-RL vs. Final-Answer RL: 在少样本和SFT设置中，针对RM进行优化的ORM-RL和PRM-RL在所有解码策略上都优于直接针对最终答案正确性优化的Final-Answer RL。作者解释，这可能是因为ORM近似了过程式反馈，促使模型寻找“以正确的方式得到正确答案”的解决方案，而不仅仅是得到正确答案。

表3 | 不同解码策略下的最终答案错误率。此表重复了表1中的一些结果，但包含了所有解码策略。在少样本设置（顶部）和贪心采样（第一列）中，RL总是提供显著的提升，这对于延迟敏感的应用很重要。在所有设置中，ORM-RL和PRM-RL都明显优于Final-Answer RL。

3.4 选择性预测

动机: 在许多应用中，模型可以弃权而不是输出错误结果。通过在RM分数上设置阈值，模型可以决定在哪些输入上弃权。
结果: 选择性预测能极大降低最终答案错误率。对于SFT+PRM模型，弃权30%的输入，最终答案错误率从14.1%降至2.7%（约5倍的降低）。
分析: 这种改进在低推理轨迹错误率的模型（如SFT）上比高推理轨迹错误率的模型（如Few-shot+Final-Answer RL）更有效。这可能是因为当推理轨迹更可靠时，RM能更准确地利用中间步骤的正确性来判断其置信度。

图5 | 选择性错误率。通过弃权，我们可以大大降低已回答问题的错误率。（左）对于带有PRM重排的SFT策略，当弃权30%的输入时，最终答案错误率从14.1%降至2.7%，降低了约5倍。（右）与通过Final-Answer RL训练的模型相比，用SFT训练的模型明显更适合选择性预测。

3.5 OOD泛化

评估: 在MATH数据集的预代数部分上进行零样本（zero-shot）评估。
结果: SFT+ORM-RL模型取得了64.6%的最终答案错误率。这显著优于GPT-3的92.3%，但差于一个在更多数学数据上训练的更大模型（29%）。
分析: 所有模型的最终答案错误率都在60%-70%之间，没有观察到基于监督类型的明显趋势。

A7 补充细节

4. 讨论

4.1 何时使用基于过程与基于结果的反馈？

核心观点：基于过程和基于结果的反馈各有优势，选择取决于具体情境。一般而言，当存在可靠且完备的评估指标时，基于结果的反馈是合适的；否则，基于过程的反馈更为适宜。

最终答案错误率 vs. 推理轨迹错误率：当低最终答案错误率已足够时，基于结果的方法提供了一种标签高效的途径。而当需要低推理轨迹错误率时（如教育、需要引用来源的问答），使用基于过程的反馈或其近似方法则很有帮助。
对人类理解的需求与促进：相比于基于结果的方法，基于过程的方法通常需要更高程度的人类理解来提供监督。反过来，它们也通过选择人类可理解的推理步骤来促进人类的理解。相比之下，基于结果的优化可能会找到难以理解的策略，导致系统可理解性降低。例如，在SFT基础上增加Final-Answer RL会降低最终答案错误率，但会增加推理轨迹错误率。
避免篡改激励：AI安全领域的一个普遍担忧是RL智能体可能会篡改其反馈机制以获得正反馈（例如，影响用户偏好以使其更容易满足）。基于过程的反馈通过评估单个行为而非整体结果，可以缓解此问题，因为它将行为与未来的奖励解耦。另一种方法是持续改进基于结果的指标，但这只能解决可被检测到的篡改行为，对于更微妙或难以理解的影响则无能为力。

4.2 我们结果的泛化性局限

领域特异性：我们普遍预期，与其它领域相比，数学领域的基于过程和基于结果的反馈会更紧密地对齐。对于数学问题，错误的推理轨迹通常不利于得出正确的最终答案。这与我们之前发现的“基于结果监督的RM会近似基于过程的反馈”相符。相比之下，在其他领域，不良行为可能有助于获得高分结果（例如，操控可能增加报告的用户满意度）。因此，我们认为，在数学问题上优化结果（最终答案的正确性）对引导正确过程的影响，会比在其他领域中更强。

4.3 与过程和结果反馈相关的概念

本文使用“基于过程”和“基于结果”的框架来讨论训练语言模型的不同监督形式。这一框架虽在博客文章和非正式讨论中被使用，但据我们所知，这是第一篇讨论该框架的实证论文。

监督学习 vs. 强化学习：广义上，监督方法更倾向于基于过程，而RL方法更倾向于基于结果。我们考虑的最基于过程的方法是纯监督的（SFT），而最基于结果的方法是纯RL（Few-shot+Final-Answer RL）。然而，RL方法也可以有不同程度的过程性，例如PRM-RL与ORM-RL或Final-Answer RL的比较。
强监督 vs. 弱监督：虽然含义因上下文而异，但监督中间步骤的方法常被称为强监督。与上述类似，虽然基于过程的方法倾向于强监督，基于结果的方法倾向于弱监督，但强监督方法既可以是基于过程的，也可以是基于结果的。
语言化推理：语言化的推理轨迹并不必然意味着基于过程的方法。实际上，本文所有方法都使用语言化推理轨迹，但采用了基于过程和基于结果两种反馈。此外，语言化推理轨迹不一定代表模型的内部推理过程。尽管如此，语言化推理仍然有助于实现基于过程的反馈，因为人类可以直接监督自然语言形式的迭代推理步骤。

5. 相关工作

用语言模型解决数学问题：数学应用题是研究LM推理的热门领域。近期多篇论文展示了少样本提示（特别是“思维链”提示）在GSM8K上的优异表现。本文专注于微调，因为它在我们使用的基础LM上显著优于仅提示。本文的工作建立在Cobbe等人（2021）【【11】】的“验证器”（即奖励模型）方法之上，并通过使用人类评估步骤改进了Li等人（2022）【【39】】提出的基于启发式规则的RM。此外，本文显著改进了Zelikman等人（2022）【【76】】的STaR方法，通过使用更好的基础模型和基于RM的RL，降低了其错误率。本文的核心贡献在于对不同反馈类型进行了全面比较，并重点关注了推理轨迹错误率。
LM中的多步推理：除了数学问题，大量工作研究了LM的多步推理。一些工作专注于纯过程式方法，如Wu等人（2021）【【70】】通过监督递归组合的单个摘要来总结长篇书籍。另一些则专注于结果式方法，如Zelikman等人（2022）【【76】】。与这些工作不同，本文直接比较了这两种技术，并对推理轨迹错误率进行了详细分析。
与WebGPT的比较：与本文最直接相关的先前工作是WebGPT（Nakano et al., 2021）【【46】】。WebGPT也观察到，基于结果的RM重排比SFT有显著改进，但在此基础上增加全解RL的效果甚微。然而，本文更全面地探索了过程式和结果式监督，额外评估了过程监督的RM、PRM-RL方法和纯结果监督的RL策略，从而得出了关于监督对最终答案与推理轨迹错误率影响的更广泛结论。
算法任务中过程与结果方法的比较：先前对这两种方法进行直接比较的工作大多集中在算法任务上（如排序）。这些研究发现，模仿执行轨迹的每一步（过程式）比端到端预测最终答案（结果式）能改善泛化能力。本文将这些发现扩展到自然语言领域，在该领域，执行轨迹无法通过程序生成，必须从人类反馈中学习。
相关数据集：本文选择GSM8K是因为它提供了自然语言推理轨迹，允许在不自行收集轨迹的情况下进行详细比较。虽然存在其他带推理轨迹的数据集（如EntailmentBank、StrategyQA等），但它们或为模板化问题，或规模小得多。由于为每个任务训练人类标注员和收集大量反馈的成本高昂，本文仅使用一个数据集。

A5 结论

本文首次在自然语言任务上对基于过程和基于结果的监督方法进行了全面的比较。研究发现，两种监督方式都能带来相似的最终答案错误率，我们的最佳模型将GSM8K上的SOTA最终答案错误率从16.8%降至13%左右。

然而，我们发现获得较低的推理轨迹错误率需要过程式监督，或一个能模拟它的奖励模型。一个纯过程式方法（SFT+PRM重排）将SOTA推理轨迹错误率从14.0%降至3.4%，而其结果式对等方法的推理轨迹错误率为12.7%。

一个令人意外的发现是，用结果式标签训练的奖励模型，其预测结果与过程式标签的一致性甚至高于其与自身训练目标（结果式标签）的一致性。通过在RL训练中使用这个奖励模型，我们大大缩小了差距，将推理轨迹错误率从12.7%降至5.5%。

尽管这些结论可能特定于数学应用题这一场景，但我们希望未来的工作能探索它们在多大程度上可以推广到其他领域。

A6 附录

A. GSM8K问题和解决方案示例

表4和表5提供了随机抽样的问题及模型解答，用以定性展示任务和模型行为。表4展示了10个随机问题及SFT+ORM-RL模型的输出，表5展示了5个最终答案正确但推理过程错误的例子。

表5 | 错误的问题与解答。我们展示了5个随机选取的例子，其中 Few-shot+Final-Answer RL 模型给出了正确的最终答案，但推理过程是错误的。第一个被判定为错误的步骤用 → 标记。作者认为第三个例子是正确的，但由于最终答案前有一个空白步骤，被标注员标记为错误。

B. 数据标注细节

参与者与报酬：研究设计经DeepMind伦理审查委员会批准。所有参与者均提供知情同意，并按其所在地的生活工资标准获得报酬。
训练数据集问题：为构建PRM训练集，使用了SFT模型在“SFT多数投票预测错误”的问题上生成的样本，以专注于困难问题。
质量保证：
- 资格筛选：在标注前进行资格测试，要求参与者在4个标准答案问题中至少正确标注3个。最终91名候选人中有21人入选。
- 数据过滤：对20%的训练问题进行双重标注，移除了标注员间一致性低于75%的标注者（4/21人）的数据。此举移除了约21%的原始标注数据。
一致性评估：
- 训练集：经过筛选后，标注员间对“第一个错误步骤”预测的一致性率为92%，Cohen's κ为0.915。
- 评估集：在评估集上（仅含最终答案正确的样本），标注员间对“整个轨迹是否正确”的二元任务一致性为87%，但Cohen's κ仅为0.34。这归因于在此类样本中，中间步骤的错误更微妙，判断更主观。

C. 额外的奖励模型分析

图6展示了仅在最后一步上，奖励模型（RM）与RM标签之间的一致性矩阵。与图4（对所有步骤取平均）类似，我们看到ORM与PRM标签的一致性更高，尽管它是被训练来预测ORM标签的。这表明ORM更倾向于预测整个推理轨迹的正确性，而不仅仅是最终答案的正确性。

图6 | 最后一步的RM与RM标签之间的一致性矩阵。仅在最后一步而非所有步骤上计算。结果相似，各处的一致性略高。

D. OOD评估细节

评估设置：为衡量分布外泛化能力，在MATH数据集的预代数部分上对模型进行零样本评估。排除了包含图表的问题，剩下633个问题。
LaTeX转换：由于GSM8K数据为纯文本格式，为测试跨问题的泛化能力而非格式，使用简单的正则表达式将LaTeX数学表达式转换为纯文本（见表8、9）。
最终答案提取：从解决方案文本中的 \boxed 命令中提取最终答案。
结果：表7显示，所有方法在该数据集上的最终答案错误率大致在60%-70%之间，没有观察到基于监督类型的明显趋势。

表7 | MATH预代数上的最终答案错误率。除非指定了RM重排，所有数字都是用多数投票报告的。所有方法的最终答案错误率相当接近。

表9 | LaTeX 正则表达式转换。本表展示了我们按应用顺序对数据执行的所有正则表达式转换。

E. 负面和初步结果

训练效率：训练ORM所需的步数大约是SFT训练的20倍，可能是因为监督信号更稀疏且每个问题可使用多个生成样本。
重排策略：在每一步进行重排（step-level reranking）的效果不如在整个解决方案生成后进行重排（solution-level reranking），最终答案错误率分别增加了1%（PRM）和3%（ORM）。这似乎是因为策略的熵不足，导致在某些步骤所有候选方案都犯同样的错误。
RM再训练：在SFT+ORM-RL训练中，专家迭代之间重新训练ORM没有帮助。但在基于少样本的专家迭代中，每次迭代都重新训练ORM，部分原因是为了避免模仿早期周期的推理错误。
标注任务设计：最初尝试让标注员提供错误步骤的修正版本，但发现这个任务难以精确传达，且难以评估标注质量，因此放弃。