Solving Math Word Problems with Process- and Outcome-Based Feedback

发表时间: 2022-11 · arXiv:2211.14275 (DeepMind)

原文: https://arxiv.org/abs/2211.14275

作者/机构: Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins (DeepMind)

A1 主要贡献

本文旨在解决一个核心问题:在训练能够生成逐步推理过程的语言模型时,应如何进行监督?具体而言,文章对比了两种主要的监督方法:基于结果(outcome-based)的方法,仅监督最终答案的正确性;以及基于过程(process-based)的方法,监督推理过程中的每一步。作者指出,仅关注最终答案的正确性可能会导致模型虽然给出了正确答案,但其推理过程却是错误的。这种现象在教育等现实世界领域中难以发现且问题严重。

研究目标
本文对基于过程和基于结果的监督方法在自然语言任务上进行了首次全面的比较。研究使用了GSM8K数据集(小学生数学应用题)作为实验平台,系统地评估了包括少样本提示(few-shot prompting)、监督微调(supervised fine-tuning)、强化学习(reinforcement learning)等多种训练方法。

核心创新与发现
1. 提升现有技术水平:本文提出的最佳方法(结合监督学习和基于奖励模型的强化学习)显著提升了GSM8K数据集上的表现,将最终答案错误率从16.8%降低到12.7%,并将正确答案中的推理错误率从14.0%大幅降低到3.4%
2. 不同监督方法对最终答案错误率的影响:研究发现,基于结果和基于过程的监督方法在最终答案错误率上表现相似。无论是否使用奖励模型,两种方法训练出的语言模型都能达到相近的最终答案准确率。
3. 奖励模型能够模拟过程式反馈:一个令人意外的发现是,即使是仅用最终答案正确性(基于结果)来训练的奖励模型(ORM),其预测结果也更倾向于与过程的每一步是否正确(基于过程的标签)保持一致,而非其自身的训练目标(最终答案是否正确)。这解释了为何奖励模型能有效降低推理过程中的错误。
4. 降低推理错误率的关键:研究明确指出,要实现较低的推理错误率,必须采用基于过程的反馈,或者使用能够模拟这种反馈的奖励模型。直接针对最终答案正确性进行强化学习的模型的推理错误率始终较高。

下图概览了本文所研究的各种建模和训练组件及其相互关系。
图1 | 方法概览。此示意图概述了所考虑的各种建模和训练组件以及它们如何组合在一起。为便于阅读,省略了一些细节(在文本中介绍)。

A3 背景知识

2.1 数据集与评估指标

数据集GSM8K:所有实验均在GSM8K数据集【【11】Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.】上进行,该数据集由小学生数学应用题组成。选择该数据集是因为它是一个有竞争力的基准,并且包含了自然语言的推理轨迹。由于需要招募具备领域专业知识的人类标注员来准确评估推理轨迹,前期成本巨大,因此本文专注于单个数据集。附录A的表2展示了几个问题示例。研究人员从原始训练集中划分出256个样本作为自己的验证集,剩余7118个训练样本和1319个测试样本。

评估指标:本文报告了在GSM8K测试集上评估所有方法的两个主要指标:
1. 最终答案错误率(Final-answer error rate):指方法未能产生正确最终答案的问题所占的比例。由于GSM8K的所有最终答案都是整数,这可以通过精确字符串匹配来衡量。
2. 推理轨迹错误率(Trace error rate):指在最终答案正确的问题中,方法产生至少一个不正确推理步骤的比例。该指标通过人类标注员对每个推理步骤正确性的标注来估计,使用的评分界面在2.7节中讨论。

指标选择的动机:本文将最终答案错误和推理轨迹错误作为两个独立的指标,因为从安全角度看,研究人员特别关注那些在使用易于计算的代理指标(此处为最终答案错误)后仍未被检测到的错误。例如,在教育场景中,向学生展示正确的解题步骤至关重要。我们可以轻易过滤掉那些导致错误答案的错误推理过程,但要过滤掉那些碰巧得出正确答案的错误推理过程则要困难得多。此外,本文还报告了选择性最终答案错误率(Selective final-answer error rate)以评估允许模型弃权时的性能,以及在MATH数据集的预代数问题上的分布外(OOD)错误率以评估泛化能力,分别在3.4节和3.5节中描述。

2.2 训练:概览

任务定义:本文的目标是训练一个用于序列到序列任务【【62】Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. Advances in neural information processing systems, 27.】的系统,该系统以问题文本为输入,生成答案文本作为输出。对于数学应用题,答案是一个完整的推理轨迹:一个由换行符分隔的步骤序列,其中最后一步应提供最终答案。对于GSM8K,最终答案总是一个整数。

整体方法:本文的方法大致遵循了先前关于语言模型强化学习(RL for LMs)的工作【【77】Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.】,【【46】Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., ... & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.】,【【42】Menick, J., Trebacz, M., Mikulik, V., Aslanides, J., Song, F., Chadwick, M., ... & Irving, G. (2022). Teaching language models to support answers with verified quotes. arXiv preprint arXiv:2203.11147.】。研究人员使用一个语言模型(LM)作为策略(policy),该策略将问题陈述和已生成的步骤映射到下一步。在强化学习(RL)的形式化中,这被视为将每一步作为一个动作(action),而观察(observation)由至今为止的所有词元(token)提供。该策略可以通过少样本提示、监督微调(2.3节)或强化学习(2.6节)获得。研究人员还训练了作为奖励模型(reward models,2.4节)的语言模型,这些模型对策略提出的完整或部分补全进行评分,并可用于对策略的样本进行重排(reranking),或作为强化学习期间的奖励来源。在接下来的小节中,将描述如何训练和组合这些组件。

A2 方法细节

2.3 监督微调

SFT作为过程式方法:在监督微调(Supervised Finetuning, SFT)中,我们微调一个语言模型,以最大化给定输入词元序列下目标词元序列的对数似然。在本文中,我们将SFT用作一种基于过程的方法,具体做法是:将GSM8K数据集中提供的推理轨迹作为目标词元,将问题陈述作为输入词元。这与仅使用最终答案作为目标的基于结果的方法形成对比。

训练细节:我们使用AdamW优化器【【41】Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101.】,学习率为$2 \times 10^{-6}$,批处理大小为256。一旦验证集上的语言建模损失开始增加,我们便停止微调。对于我们的SFT模型,这发生在70个步骤之后,大约相当于训练集上的2个多一点的周期(epoch)。

2.4 奖励模型

两种奖励模型(RM):本文评估了两种主要的奖励模型(RMs)训练方法【【10】Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in neural information processing systems, 30.】,【【77】Ziegler, D. M., Stiennon, N., Wu, J., Brown, T. B., Radford, A., Amodei, D., Christiano, P., & Irving, G. (2019). Fine-tuning language models from human preferences. arXiv preprint arXiv:1909.08593.】,【【42】Menick, J., Trebacz, M., Mikulik, V., Aslanides, J., Song, F., Chadwick, M., ... & Irving, G. (2022). Teaching language models to support answers with verified quotes. arXiv preprint arXiv:2203.11147.】(也称为验证器【【11】Cobbe, K., Kosaraju, V., Bavarian, M., Hilton, J., Nakano, R., Hesse, C., & Schulman, J. (2021). Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168.】)。在这两种方法中,我们将RM实现为一个语言模型,训练它在每一步之后预测一个二元标签,即‘正确’或‘不正确’的词元。
* 基于结果监督的奖励模型(ORM):每一步的二元标签指示该完整样本产生的最终答案是否与参考答案匹配,这是由Cobbe等人(2021)【【11】】提出的。一个在每一步都最大化ORM分数的策略,实际上是在最大化RM在每一步估计的最终达到正确答案的概率。
* 基于过程监督的奖励模型(PRM):每一步后的二元标签指示到目前为止的步骤是否正确。由于我们缺乏可靠的程序化方法来确定中间步骤的正确性,我们使用人类标注来获取这些标签(如2.7节所述)。一个最大化PRM分数的策略,会选择每一步来最大化RM估计的到目前为止步骤正确的概率。如果到目前为止的步骤是正确的,这通常意味着这样的策略会最小化在当前步骤引入错误的概率。如3.2节所报告,我们发现这种方法优于Li等人(2022)【【39】Li, Y., Lin, Z., Zhang, S., Fu, Q., Chen, B., Lou, J. G., & Chen, W. (2022). On the advance of making language models better reasoners. arXiv preprint arXiv:2206.02336.】的方法,后者与我们的PRM类似,但用基于中间计算结果字符串匹配的启发式方法替代了人类评估。

训练细节:除非另有说明,对于所有包含ORM的方法,我们使用该方法策略生成的样本来训练ORM,每个问题抽取$k = 96$个样本,温度为1.0。我们遵循Cobbe等人(2021)【【11】】的方法,使用dropout进行正则化,dropout参数为0.1,并复用2.3节中SFT的超参数。为了在基于SFT的方法中加速学习,我们使用SFT模型参数初始化ORM的训练;而对于基于少样本的方法,我们从基础的预训练LM初始化。对于PRM,我们从SFT策略中为每个问题标注3个样本,并限制在SFT多数预测(见2.5节)不正确的问题上,以便最大限度地利用我们的人类标注预算。由于我们的人类标注数据集规模较小(1560个完整解决方案),我们将PRM的参数初始化为ORM的参数,并将学习率降低到$1 \times 10^{-7}$。RM的损失曲线有一些波动,因此我们选择在2000步之前验证损失最佳的RM。

2.5 解码

解码过程:在所有测试时解码中,我们首先生成$k = 96$个完整解决方案的样本,然后通过对样本进行集成(ensembling)或使用RM来选择最佳样本。在早期实验中,我们也尝试了在每一步生成后进行RM重排(而不是在整个解决方案生成后),但发现这导致性能稍差,最终答案错误率增加了1-2%。我们使用温度$T = 1.0$进行采样,并使用Cobbe等人(2021)【【11】】的语法,让模型决定何时使用计算器。

样本选择方法:我们使用两种方法来选择最佳样本。
* 多数投票(Majority voting):当没有RM可用时,我们使用多数投票。为此,我们首先从$k$个样本中选择最常见的最终答案,然后从产生该选定最终答案的样本中随机选择一个。这被Wang等人(2022)【【68】Wang, X., Wei, J., Schuurmans, D., Le, Q., Chi, E., & Zhou, D. (2022). Self-consistency improves chain of thought reasoning in language models. arXiv preprint arXiv:2203.11171.】称为“自洽性”(self-consistency),并且与更通用的技术如最小贝叶斯风险解码(Minimum Bayes Risk decoding)【【34】Kumar, S., & Byrne, W. (2004). Minimum bayes-risk decoding for statistical machine translation. Technical report, JOHNS HOPKINS UNIV BALTIMORE MD CENTER FOR LANGUAGE AND SPEECH PROCESSING (CLSP).】相似。
* RM加权解码(RM-weighted decoding):当有RM时,我们使用RM加权解码,也被Li等人(2022)【【39】Li, Y., Lin, Z., Zhang, S., Fu, Q., Chen, B., Lou, J. G., & Chen, W. (2022). On the advance of making language models better reasoners. arXiv preprint arXiv:2206.02336.】称为“验证器投票”(verifier-voting)。在这里,我们根据RM估计的正确性概率对每个样本进行加权,选择总权重最大的最终答案,然后从产生该选定最终答案的样本中选择RM分数最高的样本。更正式地,我们选择最终答案 $a^* = \arg\max_a \sum_{s_i: \text{final\_ans}(s_i)=a} \text{rm\_prob}(s_i)$,其中 $s_1, ..., s_k$ 是模型样本,然后根据 $s^* = \arg\max_{s: \text{final\_ans}(s)=a^*} \text{rm\_prob}(s)$ 选择最佳样本。与简单地选择RM分数最高的样本相比,这种方法效果稍好(对于SFT模型,最终答案错误率降低约1%,对于RL模型稍多)。然而,我们注意到,多数投票和RM加权解码都因其依赖于最终答案之间的精确字符串匹配而通用性稍差。

2.6 通过专家迭代进行强化学习

专家迭代元算法:我们所有的RL实验都使用专家迭代(expert iteration)【【59】Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Guez, A., ... & Hassabis, D. (2017). Mastering the game of go without human knowledge. nature, 550(7676), 354-359.】,【【4】Anthony, T., Tian, Z., & Barber, D. (2017). Thinking fast and slow with deep learning and tree search. Advances in Neural Information Processing Systems, 30.】。作为一个元算法,专家迭代在两个高级操作之间交替进行。在策略改进(policy improvement)中,我们将基础策略与搜索过程结合,以从所谓的专家策略中产生样本。然后在蒸馏(distillation)中,我们对这些专家样本进行监督学习,以将基础策略改进为专家策略。我们使用5个周期,并根据RM加权解码(或在没有RM时使用多数投票)的最终答案测试错误率,选择5个周期中最好的模型。

基于SFT与基于少样本的实现:初始的基础策略可以是SFT策略,也可以是我们基础LM的5样本提示版本。我们特别指出,除了用于提示的5个随机训练样本外,所有基于少样本的方法都从未使用GSM8K数据集中提供的中间推理步骤、我们的人类标注或任何源自这些数据的模型。当从SFT模型初始化时,我们遵循Polu和Sutskever(2020)【【54】Polu, S., & Sutskever, I. (2020). Generative language modeling for automated theorem proving. arXiv preprint arXiv:2009.03393.】的做法,复用每次迭代的专家样本,因此我们的训练集每个周期都会增长。我们不对少样本方法这样做,因为在该设置下,早期周期的样本有许多我们不希望RL模型模仿的推理错误。相应地,这两种情况之间存在一些微小的实现差异,我们在策略改进和蒸馏过程的详细描述中会指出。

策略改进:我们考虑策略改进过程的三个版本(图2)。
* Final-answer RL:也称为“自教推理器”(Self-taught Reasoner),由Zelikman等人(2022)【【76】Zelikman, E., Wu, Y., & Goodman, N. D. (2022). Star: Bootstrapping reasoning with reasoning. arXiv preprint arXiv:2203.14465.】提出,我们为每个问题生成$k$个完整轨迹,并按最终答案的正确性进行过滤。对于少样本版本,我们选择所有产生正确最终答案的轨迹;对于基于SFT的版本,我们每个问题只使用一个随机选择的样本。
* ORM-RL:我们为每个问题生成$k$个完整轨迹,并根据ORM模型选择得分最高的样本。
* PRM-RL:我们将每一步视为一个独立的片段(episode)。在每一步,我们生成$k$个候选步骤,选择PRM分数最高的候选者,并从选定的步骤继续,直到模型输出带有最终答案指示文本的步骤,或达到最多15个步骤。
我们在所有实验中设置$k=96$。对于基于少样本的方法,我们在每次专家迭代后重新训练RM。对于基于SFT的方法,我们跳过此步骤并使用固定的RM,因为在初步实验中,这并没有产生显著差异,这有些出人意料。
图2 | 策略改进。此示意图总结了Final-Answer RL、ORM-RL和PRM-RL案例的不同策略改进算子,正文中对此进行了描述。

蒸馏:对于蒸馏,我们使用与SFT相同的超参数。与SFT一样,我们通过验证损失进行早停,其中我们的验证集由验证集上的专家策略样本构成。对于基于SFT的方法,我们在每个蒸馏步骤中用SFT参数进行初始化;而对于基于少样本的方法,我们用基础模型参数进行初始化。

2.7 数据标注

标注过程:如2.4节所述,PRM是在指示“到目前为止的步骤是否正确”的逐步标签上训练的。为了收集这些数据,我们向人类标注员展示问题陈述、GSM8K的参考解决方案以及生成的模型解决方案,并要求他们指出模型步骤中第一个主要错误(如果存在)。我们的指南将“主要错误”定义为“所表达的信息不正确,或者如果不撤销该步骤就无法再达到正确解决方案的步骤”。根据这些标注,我们可以为每个步骤标记一个二元标签,指示到目前为止的步骤是否正确:第一个主要错误之前的所有步骤被标记为‘正确’,其余的被标记为‘不正确’。

数据清洗和统计:我们通过移除标注员间一致性低(在20%的双重标注解决方案上测量)的样本以及被标注员标记为模糊的GSM8K问题样本,进行少量数据集清洗。这移除了约20%的数据,留下了530个训练集问题上的1560个模型样本的标注,对应9856个步骤级二元标签。对于验证集,我们使用相同的程序,但增加了双重标注和论文作者的人工审查以解决标注员之间的分歧。我们的验证集包含162个模型样本,共913个步骤。对于评估,我们为每个模型使用了200个最终答案正确的问题。这在表1中的10个模型上都进行了,同样采用了双重标注。我们在附录B中描述了数据收集程序的全部细节。

表1 | 结果概览。我们展示了推理轨迹和最终答案的错误率。我们建议在阅读或阅读完第3节中关键结果的描述后,再结合此表进行理解。推理轨迹错误率是所有评分者的平均值。括号中,我们提供了一个最小-最大范围,这取决于错误是需要两位评分者都同意(最小)还是只需要一位评分者同意(最大)。虽然推理轨迹错误率存在显著的噪音,但我们仍然可以观察到总体趋势。在每个组内,我们将方法从最基于结果的(顶部)到最基于过程的(底部)排序,除了少样本模型,它没有需要监督的微调过程。
表1 | 结果概览。我们展示了推理轨迹和最终答案的错误率。我们建议在阅读或阅读完第3节中关键结果的描述后,再结合此表进行理解。推理轨迹错误率是所有评分者的平均值。括号中,我们提供了一个最小-最大范围,这取决于错误是需要两位评分者都同意(最小)还是只需要一位评分者同意(最大)。虽然推理轨迹错误率存在显著的噪音,但我们仍然可以观察到总体趋势。在每个组内,我们将方法从最基于结果的(顶部)到最基于过程的(底部)排序,除了少样本模型,它没有需要监督的微调过程。

A4 实验环境

A4 实验结果

实验结果总结于表1和图3。ORM-RL和PRM-RL模型将最终答案错误率降至13%以下,优于当前最佳水平(16.8%)【【39】Li et al., 2022】。当允许模型在30%的问题上弃权时,错误率进一步降至2.7%。相应的推理轨迹错误率为3.4%和3.8%,显著优于先前最佳工作报告的14%【【68】Wang et al., 2022】,【【69】Wei et al., 2022】。

图3 | 推理轨迹和最终答案错误。本文研究的方法与基线的比较。对于没有推理轨迹错误率数据的方法,使用垂直线表示。图表外的点,其最终答案错误率在括号中显示。
图3 | 推理轨迹和最终答案错误。本文研究的方法与基线的比较。对于没有推理轨迹错误率数据的方法,使用垂直线表示。图表外的点,其最终答案错误率在括号中显示。

主要发现总结如下

  1. 仅监督最终答案足以获得较低的最终答案错误率:基于结果的Few-shot+Final-Answer RL模型与基于过程的SFT模型取得了相似的最终答案错误率,无论是在没有奖励模型(22.3% vs. 23.5%)还是在使用ORM(14.8% vs. 16.6%)的情况下。这表明,在最终答案正确性已足够的情况下,基于结果的方法可以成为一种标签高效且性能有竞争力的方法。

  2. ORM监督的奖励模型能近似PRM标签:尽管ORM仅被训练来预测最终答案是否正确,但图4显示,ORM的预测与PRM标签(过程正确性)的一致性(85%)高于其与自身训练目标ORM标签(结果正确性)的一致性(77%)。作者推测,这是因为ORM学习识别步骤是否正确比其内部计算最终答案来检查答案更简单。RM重排能显著改善推理轨迹错误率(从11.4%降至4.4%)也支持了这一点。然而,作者提醒不要过度泛化此结论,这可能具有领域特异性。

图4 | RM与RM标签之间的一致性矩阵。我们关注ORM的预测(黄色框),但为了完整性提供了完整的一致性矩阵(其结构是对称的)。值得注意的是,ORM模型与PRM标签的一致性高于其与ORM标签的一致性。结果是基于PRM验证集上的所有步骤。
图4 | RM与RM标签之间的一致性矩阵。我们关注ORM的预测(黄色框),但为了完整性提供了完整的一致性矩阵(其结构是对称的)。值得注意的是,ORM模型与PRM标签的一致性高于其与ORM标签的一致性。结果是基于PRM验证集上的所有步骤。
  1. 低推理轨迹错误率需要过程式反馈或模拟它的奖励模型:图3显示,尽管最终答案错误率相似,但基于结果的Few-shot+Final-Answer RL的推理轨迹错误率(19.8%)显著高于基于过程的SFT模型(11.4%)。在使用RM重排后,这种差异依然存在(12.4% vs. 4.4%/3.5%)。然而,当使用ORM来训练少样本RL模型(Few-shot+ORM-RL)而不是直接针对最终答案正确性进行训练时,推理轨迹错误率从12.4%显著下降到5.5%,大大缩小了差距。这得益于前述发现,即ORM基本上学会了模拟PRM,从而使模型能从模拟的过程式反馈中学习。

3.1 无奖励模型

表2 | 推理轨迹错误示例。在这个从Few-shot+Final-Answer RL模型中精心挑选的柠檬例子中,最终答案是正确的,但推理步骤不正确。因为Final-Answer RL只为最终答案错误进行优化,所以中间步骤不必对人类评估者来说是可理解的,或者在标准英语语义下是正确的。
表2 | 推理轨迹错误示例。在这个从Few-shot+Final-Answer RL模型中精心挑选的柠檬例子中,最终答案是正确的,但推理步骤不正确。因为Final-Answer RL只为最终答案错误进行优化,所以中间步骤不必对人类评估者来说是可理解的,或者在标准英语语义下是正确的。

3.2 仅使用奖励模型进行重排

3.3 使用奖励模型进行强化学习

表3 | 不同解码策略下的最终答案错误率。此表重复了表1中的一些结果,但包含了所有解码策略。在少样本设置(顶部)和贪心采样(第一列)中,RL总是提供显著的提升,这对于延迟敏感的应用很重要。在所有设置中,ORM-RL和PRM-RL都明显优于Final-Answer RL。
表3 | 不同解码策略下的最终答案错误率。此表重复了表1中的一些结果,但包含了所有解码策略。在少样本设置(顶部)和贪心采样(第一列)中,RL总是提供显著的提升,这对于延迟敏感的应用很重要。在所有设置中,ORM-RL和PRM-RL都明显优于Final-Answer RL。

3.4 选择性预测

图5 | 选择性错误率。通过弃权,我们可以大大降低已回答问题的错误率。(左)对于带有PRM重排的SFT策略,当弃权30%的输入时,最终答案错误率从14.1%降至2.7%,降低了约5倍。(右)与通过Final-Answer RL训练的模型相比,用SFT训练的模型明显更适合选择性预测。
图5 | 选择性错误率。通过弃权,我们可以大大降低已回答问题的错误率。(左)对于带有PRM重排的SFT策略,当弃权30%的输入时,最终答案错误率从14.1%降至2.7%,降低了约5倍。(右)与通过Final-Answer RL训练的模型相比,用SFT训练的模型明显更适合选择性预测。

3.5 OOD泛化

A7 补充细节

4. 讨论

4.1 何时使用基于过程与基于结果的反馈?

核心观点:基于过程和基于结果的反馈各有优势,选择取决于具体情境。一般而言,当存在可靠且完备的评估指标时,基于结果的反馈是合适的;否则,基于过程的反馈更为适宜。

4.2 我们结果的泛化性局限

领域特异性:我们普遍预期,与其它领域相比,数学领域的基于过程和基于结果的反馈会更紧密地对齐。对于数学问题,错误的推理轨迹通常不利于得出正确的最终答案。这与我们之前发现的“基于结果监督的RM会近似基于过程的反馈”相符。相比之下,在其他领域,不良行为可能有助于获得高分结果(例如,操控可能增加报告的用户满意度)。因此,我们认为,在数学问题上优化结果(最终答案的正确性)对引导正确过程的影响,会比在其他领域中更强。

4.3 与过程和结果反馈相关的概念

本文使用“基于过程”和“基于结果”的框架来讨论训练语言模型的不同监督形式。这一框架虽在博客文章和非正式讨论中被使用,但据我们所知,这是第一篇讨论该框架的实证论文。

5. 相关工作

A5 结论

本文首次在自然语言任务上对基于过程和基于结果的监督方法进行了全面的比较。研究发现,两种监督方式都能带来相似的最终答案错误率,我们的最佳模型将GSM8K上的SOTA最终答案错误率从16.8%降至13%左右。

然而,我们发现获得较低的推理轨迹错误率需要过程式监督,或一个能模拟它的奖励模型。一个纯过程式方法(SFT+PRM重排)将SOTA推理轨迹错误率从14.0%降至3.4%,而其结果式对等方法的推理轨迹错误率为12.7%。

一个令人意外的发现是,用结果式标签训练的奖励模型,其预测结果与过程式标签的一致性甚至高于其与自身训练目标(结果式标签)的一致性。通过在RL训练中使用这个奖励模型,我们大大缩小了差距,将推理轨迹错误率从12.7%降至5.5%。

尽管这些结论可能特定于数学应用题这一场景,但我们希望未来的工作能探索它们在多大程度上可以推广到其他领域。

A6 附录

A. GSM8K问题和解决方案示例

表4和表5提供了随机抽样的问题及模型解答,用以定性展示任务和模型行为。表4展示了10个随机问题及SFT+ORM-RL模型的输出,表5展示了5个最终答案正确但推理过程错误的例子。

表5 | 错误的问题与解答。我们展示了5个随机选取的例子,其中 Few-shot+Final-Answer RL 模型给出了正确的最终答案,但推理过程是错误的。第一个被判定为错误的步骤用 → 标记。作者认为第三个例子是正确的,但由于最终答案前有一个空白步骤,被标注员标记为错误。
表5 | 错误的问题与解答。我们展示了5个随机选取的例子,其中 Few-shot+Final-Answer RL 模型给出了正确的最终答案,但推理过程是错误的。第一个被判定为错误的步骤用 → 标记。作者认为第三个例子是正确的,但由于最终答案前有一个空白步骤,被标注员标记为错误。

B. 数据标注细节

C. 额外的奖励模型分析

图6展示了仅在最后一步上,奖励模型(RM)与RM标签之间的一致性矩阵。与图4(对所有步骤取平均)类似,我们看到ORM与PRM标签的一致性更高,尽管它是被训练来预测ORM标签的。这表明ORM更倾向于预测整个推理轨迹的正确性,而不仅仅是最终答案的正确性。

图6 | 最后一步的RM与RM标签之间的一致性矩阵。仅在最后一步而非所有步骤上计算。结果相似,各处的一致性略高。
图6 | 最后一步的RM与RM标签之间的一致性矩阵。仅在最后一步而非所有步骤上计算。结果相似,各处的一致性略高。

D. OOD评估细节

表7 | MATH预代数上的最终答案错误率。除非指定了RM重排,所有数字都是用多数投票报告的。所有方法的最终答案错误率相当接近。
表7 | MATH预代数上的最终答案错误率。除非指定了RM重排,所有数字都是用多数投票报告的。所有方法的最终答案错误率相当接近。
表9 | LaTeX 正则表达式转换。本表展示了我们按应用顺序对数据执行的所有正则表达式转换。
表9 | LaTeX 正则表达式转换。本表展示了我们按应用顺序对数据执行的所有正则表达式转换。

E. 负面和初步结果