Evaluating Robustness of Reward Models for Mathematical Reasoning

发表时间: 2024-10 · arXiv:2410.01729 (Yonsei University)

作者/机构: Sunghwan Kim, Dongjin Kang, Taeyoon Kwon, Hyungjoo Chae, Jungsoo Won, Dongha Lee, Jinyoung Yeo (均为延世大学)

A1 主要贡献

本文旨在解决评估用于数学推理任务的奖励模型（Reward Models, RMs）时存在的可靠性问题。研究指出，尽管奖励模型在通过人类反馈强化学习（RLHF）对齐大型语言模型（LLMs）中扮演着关键角色，但现有的评估基准（如RewardBench的数学子集）存在严重缺陷，可能导致对模型性能的误判和奖励滥用（reward hacking）。

核心问题与研究目标：

现有基准的不可靠性：研究发现，广泛使用的RewardBench在其数学子集（math-prm）中存在两个主要问题：
- 表征差异：其“选择的”（chosen）答案由人类编写，通常步骤简略；而“拒绝的”（rejected）答案由机器生成，步骤详尽。这种显著的格式和内容差异（如图1a和图2a所示）使得奖励模型可以轻易利用表面特征（如步骤数量）来区分答案，而非真正理解其正确性，这极易引发奖励滥用。
- 评估方式局限：仅依赖于“选择的”和“拒绝的”答案之间的一对一比较，这种方式只能评估孤立的案例，无法全面衡量奖励模型在面对多种错误类型时的鲁棒性（如图1b所示）。
研究目标：本文的核心目标是设计一个更可靠的基准，并验证该设计能准确地反映奖励模型的鲁棒性。一个鲁棒的奖励模型应能为策略学习提供有效信号，并抵抗奖励过优化（reward overoptimization）——即策略模型为了追求高分而利用奖励模型的漏洞，导致真实性能下降的现象。

创新点与主要贡献：

提出REWARDMATH基准：为了解决上述问题，本文设计并构建了一个新的基准——REWARDMATH。该基准旨在可靠地评估数学推理任务中奖励模型的鲁棒性，其设计遵循两大原则：
- 减少奖励滥用风险：REWARDMATH中的“选择的”和“拒绝的”答案均采用机器生成的、详细的分步格式，从而消除了表征差异，迫使奖励模型基于推理的正确性进行判断。
- 采用一对多比较：每个问题包含1个正确答案和9个从14种不同模型生成的、多样化的错误答案。这种一对多的比较方式能更全面地评估模型区分正确答案与各种错误答案的能力。
验证新基准的有效性：通过大量实验，本文证明了REWARDMATH的优越性。
- 与策略优化性能的强相关性：实验表明，在REWARDMATH上得分高的奖励模型，用于优化策略模型（如通过Best-of-n采样）时，能带来更大的性能提升。REWARDMATH得分与策略模型性能提升之间存在强相关性（$r^2 > 0.8$），而RewardBench的得分则几乎没有相关性（图3）。
- 有效估计奖励过优化：实验证实，在REWARDMATH上表现优异的奖励模型能更有效地抵抗奖励过优化现象。即随着优化程度（KL散度）的增加，由这些奖励模型引导的策略能持续提升真实性能（或性能下降更慢），而那些在RewardBench上得分高但在REWARDMATH上得分低的模型则会迅速出现性能崩溃（图6）。

这些发现强调了本文提出的基准设计在提升评估可靠性和准确衡量奖励模型鲁棒性方面的巨大潜力，为构建更值得信赖的RLHF系统提供了明确的方向。

图1：(a) RewardBench中人类标注的解（选择的）和机器生成的解（拒绝的）示例；(b) 由于一对一比较仅评估孤立的解决方案，其结果不能准确反映奖励模型的鲁棒性。

A3 背景知识

2.1 奖励模型

生成式奖励模型。鉴于大型语言模型（LLMs）的卓越能力，这些模型展现出有效替代人类标注者来评估各种任务的潜力【【15，Gilardi等人，2023】，【18，Huang等人，2023a】】。随着对“LLM作为裁判”（LLM-as-a-judge）【【61，Zheng等人，2024】】的兴趣日益增长，近期研究尝试使用LLMs作为奖励模型【【30，Luo等人，2023】，【58，Yuan等人，2024b】】。本文使用了两种生成式奖励模型的主要方法：（1）进行成对比较，以确定两个响应之间的胜/负关系【【26，Li等人，2023】，【21，Kim等人，2024】】，以及（2）通过直接评估为单个响应提供分数【【11，Cui等人，2023】，【21，Kim等人，2024】】。

基于分类器的奖励模型。使用标注的偏好数据集 $D = \{(x_i, y_c^i, y_r^i)\}_{i=1}^M$，基于分类器的奖励模型 $r_\phi$ 被训练来为选择的完成 $y_c$ 分配比拒绝的完成 $y_r$ 更高的分数。这个训练过程涉及在Bradley-Terry（BT）模型【【4，Bradley & Terry，1952】】下最大化对数似然来进行偏好估计：

其中 $\sigma(\cdot)$ 表示sigmoid函数。通常，奖励模型是通过将因果语言模型的最终输出层替换为一个线性头来预测一个标量值得到的。

过程奖励模型（PRM）。【【53，Uesato等人，2022】】和【【27，Lightman等人，2024】】提出了过程奖励模型（PRM），该模型预测解决方案中每个中间步骤 $s_i$ 的正确性。PRM使用以下目标函数进行训练：

其中 $\hat{y}_s$ 是 $s_i$ 的正确性标签，而 $y_s$ 是PRM为 $s_i$ 分配的sigmoid分数。

2.2 策略优化方法

Best-of-n 采样（BoN）。Best-of-n（BoN）采样是一种推理时使用的方法，用于优化策略模型生成的响应【【32，Nakano等人，2021】，【47，Stiennon等人，2020】】。在实践中，我们从策略模型 $\pi$ 生成n个完成，并选择代理奖励模型（proxy RM）得分最高的那个完成。为了评估优化程度，BoN的Kullback-Leibler（KL）散度被解析地定义为：$KL_{bon} = \log n - \frac{n-1}{n}$【【47，Stiennon等人，2020】】。

近端策略优化（PPO）。近端策略优化（PPO）【【40，Schulman等人，2017】】是一种常用的在线强化学习算法，在RLHF中用于通过奖励模型 $r_\phi$ 更新策略 $\pi_\theta$【【34，Ouyang等人，2022】，【3，Bai等人，2022】，【62，Zheng等人，2023】】。PPO旨在最大化期望奖励，该奖励通过一个KL惩罚项进行调整，以确保优化后的策略 $\pi_\theta$ 不会与参考策略 $\pi_{ref}$ 偏离太远：

其中 $\beta$ 是KL惩罚项的缩放因子。

2.3 奖励模型的鲁棒性

RLHF的成功取决于奖励模型的质量，它显著影响策略优化的有效性【【50，Touvron等人，2023】】。由于策略模型是基于代理奖励而非真实奖励（即人类评估）进行优化的，这两者之间的差异可能导致对虚假相关性的过拟合，这种现象被称为奖励过优化【【14，Gao等人，2023】，【9，Coste等人，2024】，【56，Yang等人，2024】，【37，Rafailov等人，2024】】。这个问题阻碍了策略模型的改进，并使检查点选择变得复杂【【14，Gao等人，2023】，【9，Coste等人，2024】，【38，Rame等人，2024】】。在这项工作中，我们主张奖励模型的鲁棒性应根据其为策略学习提供有效信号的能力来评估。为了验证用于评估奖励模型鲁棒性的基准，我们进行实验，以确定基准上的性能是否与优化策略的性能相关，以及该基准是否能检测到奖励模型中的过优化。

A2 方法细节

3.1 迈向评估奖励模型鲁棒性的道路

奖励模型鲁棒性评估的重要性。奖励模型的鲁棒性是RLHF系统的关键。要构建一个鲁棒的奖励模型，开发一个能准确反映其鲁棒性的可靠基准至关重要。然而，在广泛使用的奖励模型基准RewardBench【【23，Lambert等人，2024】】中，其数学领域（即math-prm）并未充分考虑这一点。首先，math-prm基于PRM800K数据集构建【【27，Lightman等人，2024】】，而最近有研究揭示，尽管PRM800K是人类标注的，但其中约20%的标注是错误的。此外，RewardBench由人类标注的选择解和未经对齐的GPT-4标注的拒绝解配对组成，通过比较两者之间的奖励来进行评估。在解决数学问题时，正如【【17，Hendrycks等人，2021】】和【【48，Sun等人，2024】】所提到的，人类常常跳过某些步骤并依赖心算，而不是写出完整的分步解法，这导致其与机器生成的解法有显著差异。图1a展示了RewardBench中人类解法和机器生成解法之间的明显差异，图2a进一步表明，选择解和拒绝解在步骤数量上存在显著的分布差距。这种差异妨碍了评估的可靠性。最后，对于一个数学问题，可能存在无数种错误的解法，因此仅与单个错误解法进行比较不足以评估奖励模型的鲁棒性，因为这些解法只代表孤立的案例。因此，我们认为很难判断在RewardBench上得分高的奖励模型是真正鲁棒还是容易受到奖励滥用的攻击。因此，我们引入了REWARDMATH，一个能更可靠地评估数学推理任务中奖励模型鲁棒性的基准。

图2：按步骤数显示的RewardBench和REWARDMATH样本分布直方图，以及每个模型对拒绝解决方案的贡献。

3.2 REWARDMATH 数据集

REWARDMATH的设计理念。REWARDMATH的设计理念是警惕草率的泛化，即从过小或案例过少的样本中得出结论。为了准确衡量奖励模型的鲁棒性，将m个正确解与n个错误解进行比较是合理的。然而，由于收集正确解需要大量人力资源，我们首先专注于收集n个错误解来与单个正确解进行比较。REWARDMATH基于MATH500，共包含483个问题，每个问题由1个正确解和9个错误解组成。正确解和错误解的构建过程如下：

正确解（Chosen）的构建。MATH500包含人类标注的解法，这些解法常常跳过许多中间步骤，使得语言模型难以理解且容易受到奖励滥用的攻击。因此，我们首先将MATH500中的人类标注解法转换为分步的机器生成解法。我们使用GPT-4进行提示，为每个数学主题精心制作了4个范例作为提示的一部分。然后，我们手动检查生成的分布解法的质量，并纠正发现的错误。

错误解（Rejected）的构建。为了收集各种各样的错误解，我们总共使用了14个现成的语言模型，包括开源模型（如LLaMA3-70B）、闭源模型（如GPT-4o）和数学专家模型（如WizardMATH-7B-v1.1）。为了确保错误解的多样性，我们为闭源模型每个问题生成8个样本，为其他模型生成16个样本。最后，从生成的错误解中，我们从每个模型随机选择1个错误解，以组成最终的9个拒绝解集。对于生成错误解的模型少于9个的问题，我们从所有错误解的全集中随机选择。图2b显示了每个模型在拒绝解中生成的错误解的比例，更多关于REWARDMATH的细节在附录B.1中。

3.3 REWARDMATH 评分

评分机制。对于每个问题，我们总共推断10个解——1个正确解和9个错误解——然后在选择解的奖励高于所有拒绝解的奖励时，分配一个真实的分类标签。RewardBench涉及一个简单的二元分类任务，以1:1的比例比较选择解和拒绝解，其中随机模型能达到50%的结果；而REWARDMATH的选择解与拒绝解的比例为1:9，这意味着随机模型的结果将是10%。

MRR评分指标。此外，考虑到仅判断选择解的奖励是否最高可能过于严格，我们还使用了平均倒数排名（Mean Reciprocal Rank, MRR），其中选择解的排名越高，得分也越高。MRR的计算公式为：$MRR = \frac{1}{d} \sum_{n=1}^{d} \frac{1}{rank_n}$，其中d是问题的总数，$rank_n$是每个问题中选择解的排名。在生成式奖励模型的成对比较中，选择解的排名由战胜它的拒绝解的数量决定。

A4 实验环境

数据集：
- 基准构建：使用了MATH500数据集，它是MATH数据集【【17，Hendrycks等人，2021】】的一个子集。
- 策略评估：使用了MATH500（分布内）、高考数学（Gaokao-math）和SAT数学（SAT-math）（分布外）进行评估。
- 合成偏好数据生成：使用了MetaMATH数据集【【57，Yu等人，2023】】。
模型架构：
- 被评估的奖励模型：
  - 生成式RM：GPT-3.5-turbo/4/4o, Claude-3.5-Sonnet/3-Opus, Prometheus-7B/8x7B, LLaMA3-8B/70B。
  - 基于分类器的RM：包括Oasstrm-2.1-pythia-1.4b, Beavor-7b-v2.0-reward, Internlm2-7b-reward等九个模型，这些模型在RewardBench排行榜上名列前茅或专门为防止奖励滥用而设计。
  - 过程RM (PRM)：包括Math-Shepherd-Mistral-7B, ReasonEval等多个开源PRM。
- 用于优化的策略模型：MetaMATH-Mistral-7B, WizardMath-7B-v1.1, 以及在合成设置中使用的Mistral-7B-v0.1。
硬件配置：
- 实验在8块NVIDIA RTX A6000 GPU和8块NVIDIA RTX A5000 GPU上进行。
软件配置：
- 代码已公开发布。
- 使用了官方RewardBench仓库的推理代码，并为特定模型进行了适配。
- 答案解析代码来自【【60，Zhang等人，2024】】和【【24，Li等人，2024】】。
- 使用了PPO算法进行策略优化。

A4 实验结果

4.2 评估结果

LLM-as-a-judge在数学推理中的评估能力。 根据表1中RewardBench的结果，LLM-as-a-judge，特别是GPT-4或Prometheus-2-7B，似乎能够胜任奖励模型的角色。然而，与仅评估有限案例的RewardBench结果不同，REWARDMATH上的直接评估结果显示，LLMs作为奖励模型往往表现不佳，除了GPT-4系列外，大多数模型的得分接近0。为了探究原因，我们设置了一个宽松的评估标准，即当选择解的奖励与拒绝解的奖励相等时也算作正确（即Acc. (w/ tie)）。结果发现，所有LLM裁判的得分都出现了显著提升。这表明大多数LLMs无法区分正确解和错误解之间的细微差别，只是简单地给所有解赋予了相同的分数。有趣的是，大多数生成式奖励模型在成对比较中表现更好。关于LLM-as-a-judge的更多分析见附录C.2。

在RewardBench上得分高并不保证奖励模型的鲁棒性。 如表2所示，在RewardBench上的排名并不能转化为在REWARDMATH上的同等表现。具体来说，在RewardBench上排名靠前的模型Oasstrm-2.1-pythia-1.4b，在REWARDMATH中却面临挑战，得分低于在RewardBench中排名最低的Beavor7b-v2.0-reward。然而，在RewardBench中排名低于Oasst-rm-2.1-pythia-1.4b的Internlm2-7b-reward，在REWARDMATH中却表现出相对较强的性能，这表明它是一个真正鲁棒的数学推理奖励模型。此外，PRMs由于使用了有利的聚合函数（即prod），通常在RewardBench上能获得高分，但当使用几何平均（即geo mean）作为聚合函数以消除步骤偏差后，我们发现大多数PRMs即使在RewardBench中也表现不佳。与基于分类器的奖励模型类似，PRMs在RewardBench上的表现并未延续到REWARDMATH，其中在RewardBench上排名靠前的PRM——Math-Shepherd-Mistral-7B，在REWARDMATH中排名垫底。

表1：生成式奖励模型在RewardBench和REWARDMATH上的结果。direct表示通过直接评估对单个响应进行评分，pairwise表示通过成对比较来确定两个响应的胜负。

表2：基于分类器的RM和PRM在RewardBench和REWARDMATH上的结果。PRM使用括号中指定的聚合函数计算解决方案级别的奖励。

5.1 基准的可靠性

比较RewardBench和REWARDMATH在优化策略中的结果。 实验通过Best-of-N (BoN) 采样方法，使用表2中的奖励模型来优化两个策略模型（MetaMATH-Mistral-7B和WizardMath-7B-v1.1）。结果如图3所示，奖励模型在RewardBench上的得分与优化后策略的性能提升（∆acc）之间几乎没有线性关系（最高决定系数$r^2$仅为0.128）。相反，REWARDMATH上的得分与策略性能提升表现出强烈的正相关关系，尤其是在MATH500测试集上（$r^2 > 0.8$）。这表明REWARDMATH能够可靠地预测奖励模型在策略优化中的有效性。

对评估集结构的深入分析。 为了探究如何构建最能反映奖励模型有效性的评估集，研究者设计了多种评估配置。如图4所示，通过斯皮尔曼相关性分析发现：

易受奖励滥用影响的RewardBench显示出低相关性。
通过使用REWARDMATH的正确解和RewardBench的错误解，减轻了奖励滥用风险后，相关性相对提高。
使用一对多比较比一对一比较更可靠。
这些结果凸显了在设计基准时，最小化正确解与错误解之间的表征差异以及采用一对多比较的重要性。有趣的是，当错误解由Gemma-2-27B或GPT-4o等高级模型生成时，相关性变为负或接近于零，这表明当前的奖励模型难以区分这些更复杂的错误。

图3：数学测试集上准确率差异（∆acc）与各基准性能之间的关系。∆acc表示n=256和n=1时BoN性能的准确率差异。线条表示∆acc与基准性能之间的线性关系，决定系数（r2）表示该线性相关的强度。BoN采样和MRR指标的详细结果见附录C.4。

图4：各种评估集设计的结果与优化后策略模型在各数据集上性能之间的相关性。所有表2中的基于分类器的RM和PRM均被采用。

5.2 从奖励过优化的视角

通过奖励过优化评估奖励模型的鲁棒性。 在一个合成实验设置中，实验发现，使用较小数据集训练的代理奖励模型在较低的KL散度下就达到奖励峰值，表明过优化发生得更快（图5）。这与先前研究一致，即更大的数据集有助于缓解奖励过优化。同时，实验证实，在数学等具有明确人类偏好的任务中，通过真实奖励（即pass@1准确率）也能观察到奖励过优化现象。

REWARDMATH作为评估奖励模型的可靠指标。 实验结果表明，随着训练数据量的增加，代理奖励模型在REWARDMATH上的性能持续提升，但在RewardBench上则没有这种趋势（表3）。此外，图6显示，一些在RewardBench上得分很高的模型（如Oasst-rm-2.1-pythia-1.4b，图6a中的'J'点）表现出快速的过优化。然而，来自REWARDMATH的结果呈现出清晰的趋势：性能越高（图6中线条颜色越深），奖励崩溃现象越不明显。这突显了REWARDMATH的可靠性——在该基准上表现优异的模型能更有效地避免过优化，从而提供更准确的奖励信号。

图5：在合成设置下，使用不同数据量的代理奖励模型进行的BoN和PPO实验中的黄金奖励和神谕奖励（pass@1）。PPO的结果曲线是根据Gao等人（2023）验证的函数使用10个检查点拟合的。

表3：使用不同数据量训练的代理RM在RewardBench和REWARDMATH上的准确率。

图6：使用MetaMATH-Mistral-7B进行BoN实验的黄金奖励和神谕奖励（pass@1）。热图代表奖励模型在每个基准上的准确率。我们使用Internlm2-7Breward作为黄金RM。WizardMATH-7B-v1.1（策略）的附加结果在附录C.5中。

A7 补充细节

5.3 关于开发有效RLHF系统的讨论

基准在人工智能发展中的关键作用。基准是推动人工智能进步的关键里程碑。本文主张，一个用于奖励模型的基准应该能够可靠地评估其鲁棒性，其中鲁棒的奖励模型指的是能够为有效的策略学习提供有用信号的模型。

本文设计的有效性及其启示。通过广泛的实验，我们证实了我们提出的可靠基准设计——即减轻奖励滥用风险并采用一对多比较——能够准确反映奖励模型的鲁棒性。

未来工作的方向。虽然这项工作标志着一个重要的进步，但仍有改进空间。我们在数学推理任务中验证了我们的设计，因为在这类任务中，人类偏好可以通过正确性明确定义，从而更容易收集多个拒绝的完成。由于奖励模型可以应用于广泛的任务，一个关键的下一步是扩展我们的设计以覆盖所有这些任务。我们希望推进这一研究方向，为开发更值得信赖和更有效的RLHF系统提供一条有前景的道路。

6 相关工作

评估奖励模型。RLHF的成功取决于奖励模型捕捉人类偏好的鲁棒性【【34，Ouyang等人，2022】】。对奖励模型的评估主要依赖于下游评估，即通过观察优化后策略的性能提升来验证其有效性【【13，Dubois等人，2024】，【61，Zheng等人，2024】】。然而，由于策略优化过程中存在众多临时选择，如RL算法的选择、计算资源和超参数，这些评估方法的可信度受到质疑【【14，Gao等人，2023】，【6，Casper等人，2023】】。最近，为了理解奖励模型的行为并直接观察其性能，【【23，Lambert等人，2024】】提出了RewardBench，一个通过比较选择的完成和拒绝的完成之间的奖励来进行评估的基准。在本文中，我们指出了RewardBench在数学领域中质量和评估方法（即一对一比较）的局限性，并展示了我们提出的可靠基准设计的有效性。

LLM的数学推理能力。LLM的数学推理能力在评估这些模型的人工智能水平方面扮演着重要角色【【22，Lake等人，2017】】。为了增强LLM的数学推理能力，研究人员通常使用大规模、高质量的数据集进行训练【【57，Yu等人，2023】，【49，Toshniwal等人，2024】】，并应用专为数学分步推理量身定制的复杂提示工程【【54，Wei等人，2022】，【8，Chen等人，2023】，【55，Wang等人，2023】，【57，Yao等人，2024】】。此外，他们还试图通过整合外部工具（如Python解释器和计算器）来解决LLM在精确计算和算法处理方面的弱点【【59，Yue等人，2024】，【16，Gou等人，2024】】。尽管这些工具增强的方法展现了有希望的结果，但本文专注于LLM在不依赖外部工具的情况下解决数学问题的内在能力。最近，许多研究探索了在推理任务中使用奖励模型的两种主要方法：在推理期间使用奖励模型作为验证器对输出进行重排，以及在训练期间应用RL算法以提高推理能力【【27，Lightman等人，2024】，【56，Wang等人，2024b】，【48，Sun等人，2024】，【29，Luo等人，2024】】。因此，我们通过对奖励模型进行全面评估，探讨了在RLHF系统中进一步增强数学推理能力的方法。

A5 结论

本文提出了一种新的、用于可靠评估奖励模型的设计方案：（1）减轻奖励滥用的风险，以及（2）采用一对多的比较方式。为了验证我们的设计，我们提出了REWARDMATH，一个能够有效反映数学推理任务中奖励模型鲁棒性的基准。我们的大量实验表明，REWARDMATH上的性能与优化后策略的性能有很强的相关性，而现有基准则没有这种相关性。此外，我们还证实，REWARDMATH可以有效估计奖励过优化这一RLHF系统中的关键问题。虽然由于资源限制我们采用了一对多的比较，但一个关键的下一步可能是采用多对多的比较以进行更全面的评估。我们希望这项旨在建立一个可靠的奖励模型评估基准的工作，能为开发更值得信赖的RLHF系统铺平道路。

A6 附录

A 局限性与未来工作

任务局限性。本文主要关注数学推理，因为其人类偏好可以通过正确性相对明确地定义。要将此设计扩展到其他任务，需要仔细考虑其结构是否容易导致奖励滥用，并验证其对策略的影响，例如奖励过优化——换言之，是否能准确地反映奖励模型的鲁棒性。

比较方式的局限性。值得注意的是，我们采用了一对多比较而非多对多比较。与错误解不同，收集正确解需要大量的人力资源。此外，随着解的总数增加，推理成本也会上升。因此，我们设计了一个使用一对多比较的基准，并通过广泛的验证证明了其前景。然而，如果没有资源限制，使用尽可能多的解进行多对多比较将最准确地反映奖励模型的鲁棒性。

n=9的选择。另一个自然的问题是为什么REWARDMATH有9个拒绝解（n=9）。随着解的数量增加，推理成本和结果的可靠性都会提高。因此，找到最佳的权衡点也至关重要。然而，由于我们的主要目标是验证我们提出的设计，找到n的最优值超出了本工作的范围。

PPO实验的随机性。由于资源限制，通过PPO进行的强化学习仅使用单个随机种子进行。然而，考虑到RL训练中通常存在的高度噪声，使用多个随机种子以获得更可靠的结果是更可取的【【1，Agarwal等人，2021】，【36，Patterson等人，2023】】。

B 实验细节

B.1 REWARDMATH的数据构建

获取正确解的细节。为了获得分步的正确解，我们提示GPT-4将MATH500中的人类标注解法重新生成为机器生成的解法。我们动态提供4个范例，通过检索与给定问题相同主题的范例来确保正确解的质量。这些范例选自MATH的训练集，每个问题被分为7个主题之一（初等数学、数论、几何、计数与概率、初级代数、中级代数和代数）。此外，我们手动检查了所有机器生成的正确解以确保质量，并纠正了小错误。推理参数设置为：温度0.7，top-p 1.0，采样数为1。详细提示见图14。

收集多样错误解的细节。我们采用两种方法构建拒绝解集：（1）从13个现成的LLM中采样，（2）由GPT-4修改正确解。首先，我们提示13个不同的LLM解决MATH问题并收集错误解。这13个LLM包括通用的闭源LLM、通用的开源LLM和数学专家LLM。在提示中使用2-shot范例，闭源LLM每个问题生成8个样本，开源LLM生成16个样本，而数学专家LLM使用0-shot提示生成16个样本。温度统一设置为1.0，top-p为0.95。其次，我们指示GPT-4-0125-preview从正确解中选择一个特定步骤，将其转换为错误步骤，然后再次提示从该错误步骤继续生成解。

数据集筛选。从14个不同来源（13个LLM采样和修改正确解）中，我们每个来源选择一个错误解，以形成最终的9个拒绝解集。对于收集到的错误解少于9个的问题（即大多数模型对所有样本都给出了正确答案），我们从生成多个错误解的模型中随机选择额外的错误解来补全。此外，我们删除了13个LLM中少于5个产生错误解的问题，共删除了10个问题。

手动检查。我们利用【【60，Zhang等人，2024】】和【【24，Li等人，2024】】提供的评估代码来解析机器生成解中的答案。然而，有些解答案正确但因解析错误被误标为错误；因此，我们手动检查了所有解以验证和纠正标签。结果，又有7个问题被排除。总共，我们移除了17个问题，在这些问题中超过5个模型生成了完全正确的解。表13显示了被排除的问题，表4展示了每个模型生成错误解的统计数据。

B.2 基线模型

生成式奖励模型。我们利用LLM-as-a-judge来评估解法，包括开源、闭源以及专为评估微调的模型。对于闭源模型，我们通过API访问了gpt-3.5-turbo-0125, gpt-4-0613, GPT-4O-2024-05-13【【33，OpenAI，2023a;b】】以及claude-3-opus和claude-3.5-sonnet。对于开源模型，我们使用了LLaMA3 8B和70B【【2，AI@Meta，2024】】以及专为评估响应而微调的Prometheus-2 7B和8x7B【【21，Kim等人，2024】】。

基于分类器的奖励模型。这类模型通常用于RLHF，训练目标是为选择的解分配比拒绝的解更高的奖励。我们使用了九个基于分类器的奖励模型。其中，【【58，Yuan等人，2024a】】和【【12，Dai等人，2024】】发布了人类标注的偏好数据集，Eurus-RM-7b使用了UltraInteract、UltraFeedback和UltraSafety数据集的混合，Beaver-7b-v2.0-reward使用了PKU-SafeRLHF数据集。此外，ArmoRM-Llama3-8B-v0.1, Internlm2-7b/20b-reward, Oasst-rm-2.1-pythia-1.4b在RewardBench上排名靠前。值得注意的是，ArmoRM-Llama3-8B-v0.1和Internlm2-7b-reward【【54，Wang等人，2024a】，【5，Cai等人，2024】】被开发用于防止奖励滥用。我们还使用了在RewardBench上排名靠前的最新模型Skywork-Reward-Llama-3.1-8B【【28，Liu & Zeng，2024】】，GRM-llama3-8B和GRM-gemma-2B【【56，Yang等人，2024】】。

过程奖励模型。我们使用了过程奖励模型（PRM），它为解的每个中间步骤打分。【【27，Lightman等人，2024】】发布了PRM800K，一个包含80万个步骤级人类反馈标签的综合数据集，用于训练PRM。【【55，Xia等人，2024】】使用PRM800K在WizardMath-7B-V1.1和Llemma-34B上训练模型，并提出了ReasonEval 7B和34B。【【48，Sun等人，2024】】引入了一种从易到难的生成方法，并提供了在PRM800K中较简单数据（如MATH数据集的1-3级问题）上训练的PRM。由于构建PRM训练数据需要大量人力资源，【【56，Wang等人，2024b】】提出了一个框架，无需人类标注即可自动构建过程监督数据集，并使用MathShepherd数据集训练了Mistral-7B。

B.3 奖励模型评估细节

生成式奖励模型。我们采用两种评估策略：对单个解评分（即direct）和对两个解进行成对比较（即pairwise）。我们使用了图16和图17中显示的提示。为减轻成对比较中的位置偏差，我们随机排列选项顺序。对于Prometheus-2，我们使用了图18和图19中展示的、专为推理任务设计的提示。

基于分类器的奖励模型。为了适应不同模型的推理模块，我们主要使用官方RewardBench仓库提供的推理代码。对于像ArmoRM-Llama3-8B-v0.1这样的自定义分类器，我们对其推理代码进行了适配，以保持评估框架的一致性。

过程奖励模型。PRM通过为单个推理步骤打分来评估解。这需要一个聚合函数将步骤级分数汇总为解级分数。为此，每个解被分割成一系列步骤，PRM逐一评估并打分。虽然许多研究使用所有步骤分数的乘积（即prod）作为聚合函数，但这会引入步骤数偏差，对较长的解不利。因此，在本文中，我们使用几何平均值作为聚合函数。关于聚合函数的更详细解释和深入分析见附录C.3。

B.4 奖励过优化实验

实验设置。在非合成设置中，我们使用WizardMath-7B-v1.1和MetaMATH-Mistral-7B作为策略模型，通过BoN采样评估奖励过优化。此外，我们按照【【14，Gao等人，2023】】和【【9，Coste等人，2024】】的方法，在合成设置下进行实验观察奖励过优化，具体如下：

训练策略模型。我们在MetaMATH数据集上训练了Mistral-7B-v0.1作为策略模型。训练时，我们仅从MATH增强的155K数据点中选择性地使用了80K。训练策略模型的超参数详见表5。

收集合成偏好数据集。我们使用SFT模型（即策略模型）在MetaMATH数据集（包含75K条来自MATH的数据，不包括用于训练策略模型的数据）上为每个问题生成16个解。通过随机配对包含至少一个错误解和一个正确解的问题中的选择解和拒绝解来收集初始偏好数据。最后，我们使用黄金奖励模型（即Internlm2-7B-reward）为每个数据打标签，创建了一个包含65K实例的合成偏好数据集。

使用合成偏好数据集训练代理奖励模型。我们基于Mistral-7B-v0.1，使用不同大小的合成偏好数据集训练代理奖励模型，以研究训练数据集大小对奖励过优化的影响。代理奖励模型被训练为基于分类器的奖励模型。训练超参数详见表6。

策略优化。我们使用BoN采样和PPO作为策略优化方法。对于BoN采样，我们使用策略模型为MATH500数据集中的每个问题生成n=256个解。对于PPO，我们在MATH数据集的12K训练集上训练策略一个epoch。PPO的超参数详见表7。所有实验均在8个NVIDIA RTX A6000 GPU和8个NVIDIA RTX A5000 GPU上进行。

C 深入分析

C.1 REWARDMATH数据集的多样性

多样性来源。我们在收集错误解时，特意从不同类型的LLMs中采样，考虑了开源/闭源、骨干模型类型、参数大小、在MATH数据集上的性能（高低均有）以及是否为数学推理专门训练等因素。图2b展示了我们从多样化的模型中收集了拒绝解。

嵌入向量可视化。此外，通过t-SNE可视化拒绝解的嵌入向量（图7），可以看出REWARDMATH的分布区域比RewardBench宽得多，表明REWARDMATH包含了更广泛的拒绝解类型。这种多样性意味着REWARDMATH能够更有效地评估奖励模型的泛化能力。

图7：应用t-SNE对拒绝解的嵌入向量进行可视化。我们使用OpenAI text-embedding-3-small作为嵌入模型。

C.2 生成式与分类器式奖励模型分析

奖励分布。如图8所示，我们观察到除了GPT-4/4o之外，大多数模型倾向于为正确（chosen）和不正确（rejected）的解都给出高分。这一结果强调了生成式奖励模型在准确评估错误推理方面存在困难，表明LLM无法正确判断其推理的正确性【【51，Tyen等人，2023】，【19，Huang等人，2023b】】。此外，图10展示了基于分类器的模型的奖励分布。虽然许多模型在RewardBench上为选择解分配了更高的奖励，但在REWARDMATH上的结果表明，这些模型通常为选择解和拒绝解提供相似的奖励。

LLM在数学推理任务中是否存在自增强偏见？ 【【61，Zheng等人，2024】】提出LLM裁判可能表现出偏爱自己生成响应的自增强偏见。为探究此偏见是否延伸至数学推理任务，我们使用四个模型（GPT-4o-2024-05-13, GPT-3.5-turbo0125, Meta-Llama-3-70B-Instruct, and Meta-Llama3-8B-Instruct）作为基线和REWARDMATH中拒绝解的来源进行实验。图9展示了在REWARDMATH中，选择解（来自REWARDMATH）和拒绝解（来自每个裁判模型）之间的一对一比较准确率，比较了四个LLM裁判的性能与其他裁判的平均性能。结果显示，GPT-4o更频繁地选择自己的拒绝解。同样，其他LLM裁判也表现出相对更高的偏好选择自己的拒绝解。然而，差异并不显著，表明存在轻微的自增强偏见。此外，我们在一组100个问题上检查了模型是否更偏爱自己的正确解而非其他模型的。如表8所示，模型普遍倾向于偏爱自己的解，但结果并未表明存在明显的偏见。

图8：由生成式奖励模型使用直接评估法在REWARDMATH中对选择解和拒绝解的奖励分布。REWARDMATH中拒绝解的数量是通过除以9计算的。

图9：使用成对比较的生成式奖励模型的结果。失败率表示选择拒绝解而非选择解的比例。

表8：该结果展示了LLM作为裁判的自增强偏见，表示在一个包含100个问题的集合中，LLM裁判选择自己选择的解决方案的比例。

C.3 聚合函数分析

聚合函数及其影响。对于一个解 $S = \{s_1, s_2, ..., s_n\}$，PRM为每个步骤 $s_i$ 打分，需要一个聚合函数来计算最终奖励。我们考虑了多种聚合函数，如prod（所有步骤分数的乘积）、sum、mean等。本文提出使用geo mean（几何平均值）来减轻prod函数带来的步骤数偏差。如表9所示，由于RewardBench中拒绝解的步骤数通常多于选择解（图2a），prod函数在该基准上表现最好，但这并非因为模型真正鲁棒，而是利用了基准的漏洞。geo mean通过对乘积开n次方根，消除了长度偏差，是一种更有效的解决方案。因此，本文所有结果均使用geo mean报告。

表9：在RewardBench和REWARDMATH上对PRM中聚合函数的分析。

C.4 基准性能与BoN采样结果的相关性

REWARDMATH的MRR指标结果。我们已经证明REWARDMATH上的准确率与BoN采样结果强相关。为了更全面地评估，我们还验证了REWARDMATH上的MRR分数与BoN采样结果的相关性。如图11c所示，MRR分数同样与BoN采样结果表现出强相关性，在MATH500上$r^2 > 0.8$。这表明REWARDMATH的两个指标（准确率和MRR）都具有很高的可靠性。

策略模型与拒绝解采样模型的重叠问题。一个自然的问题是，强相关性是否因为REWARDMATH中的拒绝解恰好是由用作策略的模型采样的。为了排除这种混淆，我们进行了“一对八”比较，即从9个拒绝解中移除了与策略模型同源的解。表11显示，即使在这种调整后，强相关性依然存在，这进一步证实了REWARDMATH的可靠性。

可靠基准设计的深入分析。在资源无限的情况下，验证尽可能多的解会得到最可靠的结果。我们在5.1节探讨了选择解与拒绝解表征相似性以及一对多比较的重要性。为进一步分析，我们研究了REWARDMATH中选择解与随机选择的拒绝解进行一对一比较的结果。其相关性与一对多比较相似，表明即使是具有高度多样性的一对一比较也可能足够有效。然而，当与Gemma-2-27b-it和GPT-4o-2024-05-13生成的复杂错误解进行一对一比较时，结果表明现有奖励模型难以准确区分这些细微的错误，这也解释了为什么REWARDMATH中的一对多比较的相关性低于某些一对一比较。

表10：在MATH500、高考数学和SAT数学上进行BoN采样（n=256）的MRR分数。我们使用MetaMATH-Mistral-7B和WizardMATH-7B-v1.1作为策略模型。括号内表示n=256和n=1时BoN性能的MRR差异。

表11：RewardBench和REWARDMATH的性能与优化策略结果之间的Spearman相关性。该相关性特别反映了在BoN实验期间，从REWARDMATH中排除了从策略模型（如MetaMATH-Mistral-7B）收集的拒绝解决方案后获得的结果。

表12：基于基准设计的性能（Acc.）与优化策略结果之间的Spearman相关性。

C.5 奖励过优化实验

附加实验结果。我们进行了额外的实验来评估基准如何估计奖励过优化。如图6所示，REWARDMATH上的准确率与奖励过优化之间存在明确关系。我们同样观察到MRR分数也存在强相关性（图13）。我们还提供了不同策略模型在准确率和MRR指标下的结果（图12b和图12c）。这些结果表明，REWARDMATH在各种策略模型上都能持续地检测到过优化。

D 提示

图14和15展示了用于数据集构建的提示。此外，我们用于评估生成式奖励模型的提示在图16、17、18、19中展示。

图10：由基于分类器的奖励模型评分的RewardBench和REWARDMATH中选择解和拒绝解的奖励分布。REWARDMATH中拒绝解的数量通过除以9计算。

图12：WizardMATH-7Bv1.1的BoN实验的黄金奖励和神谕奖励（pass@1）。

图13：MetaMATH-Mistral7B的BoN实验的黄金奖励和神谕奖励（pass@1）。热图表示奖励模型在REWARDMATH上的MRR。

图14：将人类解决方案转换为机器生成解决方案的提示。这是一个应用于属于代数主题的问题的例子，该主题是七个主题之一。

PaperCache

Evaluating Robustness of Reward Models for Mathematical Reasoning

Evaluating Robustness of Reward Models for Mathematical Reasoning

A1 主要贡献