HelpSteer2: Open-source dataset for training top-performing reward models

作者/机构: Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev, NVIDIA {zhilinw, yidong}@nvidia.com

A1 主要贡献

本文介绍并发布了HelpSteer2,一个高质量、遵循宽松许可(CC-BY-4.0)的偏好数据集,旨在解决当前大型语言模型(LLM)对齐领域中高质量、开放数据集的短缺问题。

A2 方法细节

2. 数据集

2.1 数据集收集
2.2 数据集分析

3. 奖励模型

4. 对齐模型

我们展示了三种使用Llama 3 70B奖励模型对齐LLM的方法:迭代式直接偏好优化(Iterative DPO)、近端策略优化(PPO)和SteerLM。

4.1 评估
4.2 SFT基线
4.3 DPO
4.4 PPO
4.5 SteerLM

A4 实验环境

A4 实验结果

4.6 结果

表4:对齐模型的评估。每个指标越高越好,除了平均响应长度。因为我们所有对齐模型实验都使用Llama 3 70B基础模型[8],所以我们使用Llama 3 70B Instruct模型和GPT-4-0613作为基线。标有“w. DA”的模型使用了Daring Anteater数据集。标有*的模型的指标来自外部排行榜[52-55]。粗体为最佳模型,下划线为次佳模型。
表4:对齐模型的评估。每个指标越高越好,除了平均响应长度。因为我们所有对齐模型实验都使用Llama 3 70B基础模型[8],所以我们使用Llama 3 70B Instruct模型和GPT-4-0613作为基线。标有“w. DA”的模型使用了Daring Anteater数据集。标有*的模型的指标来自外部排行榜[52-55]。粗体为最佳模型,下划线为次佳模型。

A5 结论

我们介绍了HelpSteer2——一个遵循宽松许可(CC-BY-4.0)、规模小(1万对)、高质量(Cohen's κ为0.791)的有益性数据集,可用于高效训练在RewardBench上表现顶尖的奖励模型(在其主要数据集上达到92.0%,截至2024年6月12日排名第一)。我们分享了我们如何收集该数据集以启发类似的收集工作,以及如何使用该数据集训练奖励模型。最后,训练出的Llama 3 70B奖励模型可用于对齐Llama 3 70B基础模型,使其在主要对齐指标(MT Bench、TruthfulQA、AlpacaEval 2.0 LC和Arena Hard)上的性能达到或超过Llama 3 70B Instruct和GPT-4-0613。

A6 附录

A 局限性

B 社会影响

C 伦理考量

D 相关工作

E 复杂性分类器

F 多轮提示完成

G 标注指南

这里我们提供在整个项目过程中使用的完整标注指南。

G.1 概述
G.2 标记无效任务
G.3 各维度评分
G.3.1 详细评分标准
G.3.2 示例
G.4 其他注意事项

H 评估细节

I 计算需求

表6:训练各种模型所需的计算资源,以H100等效节点小时为单位。实验在内部集群上由8个H100/A100-80GB SXM GPU组成的节点上运行。为清晰起见,A100上的计算量除以3以获得H100等效值。*此计算量的大部分用于未优化的文本生成,如果以优化方式完成,将大大减少此计算量。
表6:训练各种模型所需的计算资源,以H100等效节点小时为单位。实验在内部集群上由8个H100/A100-80GB SXM GPU组成的节点上运行。为清晰起见,A100上的计算量除以3以获得H100等效值。*此计算量的大部分用于未优化的文本生成,如果以优化方式完成,将大大减少此计算量。