RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning

发表时间: 2025-04 · arXiv:2504.20073 (Northwestern / Stanford / Microsoft / UW)

作者/机构: Zihan Wang*1, Kangrui Wang*1, Qineng Wang*1, Pingyue Zhang*1, Linjie Li*2, Zhengyuan Yang4, Xing Jin6, Kefan Yu1, Minh Nhat Nguyen7, Licheng Liu1, Eli Gottlieb1, Yiping Lu1, Kyunghyun Cho5, Jiajun Wu3, Li Fei-Fei3, Lijuan Wang4, Yejin Choi3, Manling Li1
(1Northwestern University 2University of Washington 3Stanford University 4Microsoft 5New York University 6University of British Columbia 7Singapore Management University)

A1 主要贡献

本文旨在系统性地研究如何使大型语言模型(LLM)智能体在多轮交互和随机环境反馈下能够稳定有效地自我演进。传统强化学习(RL)在静态任务上取得了进展,但在交互式智能体的多轮训练中仍面临训练不稳定、奖励信号复杂和泛化能力有限等挑战。

为解决这一问题,研究者们提出了一个通用的智能体强化学习框架 StarPO(State-Thinking-Actions-Reward Policy Optimization),并基于此开发了 RAGEN,一个用于训练和评估 LLM 智能体的模块化系统。该系统支持完整的训练循环,包括多轮部署(rollout)生成、轨迹级奖励分配和策略优化。

通过在四个不同复杂度的环境(Bandit、Sokoban、Frozen Lake、WebShop)中进行实验,本文得出了三个核心发现:
1. 多轮 RL 训练中的梯度稳定性是关键:研究发现多轮 RL 训练中存在一种名为“回声陷阱”(Echo Trap)的反复出现的不稳定模式,表现为智能体过度拟合局部奖励高的推理模式,导致奖励变异性骤降、熵降低和梯度尖峰。为解决此问题,提出了 StarPO 的稳定变体 StarPO-S,通过基于变异性的轨迹过滤、引入评判家(critic)以及解耦的梯度裁剪来提升学习鲁棒性。
2. 部署(Rollout)的频率和多样性塑造了自我演进:研究发现,为了实现稳定的智能体 RL 训练,LLM 自我生成的部署轨迹(作为核心训练材料)需要满足三个关键因素:(1)确保部署来自多样化的初始状态,且每个初始状态有多个响应;(2)每轮允许多个动作以在有限的回合内扩展交互范围;(3)保持高频率的部署以确保在线反馈能反映当前策略。
3. 智能体推理的涌现需要精细的奖励信号:研究发现,仅仅在动作格式中鼓励推理并不足以保证推理行为的出现。即使使用 StarPO 进行轨迹级优化,如果推理不能带来明确的奖励优势,模型仍会退化为直接选择动作。此外,当奖励仅反映任务成功时,模型会产生幻觉式的推理,暴露出其“思考”与环境状态之间的脱节。这强调了为长时程智能体训练设计细粒度、感知推理的奖励机制的必要性。


图 1 | 以往的方法专注于非交互式任务,如数学或代码生成。RAGEN 实现了 StarPO,一个通用的智能体 RL 框架,支持在需要多轮随机交互的智能体任务中进行多轮部署、轨迹级奖励分配和策略更新。

A3 背景知识/关键Observation/设计原则

2.1. 智能体训练的马尔可夫决策过程(MDP)表述

从单轮到多轮交互的范式转变。以往针对语言模型的强化学习(RL)通常假设为单轮设置,其目标是最大化从数据集 D 中采样的提示-响应对(p, r)的期望奖励 R(p, r):

然而,基于 LLM 的智能体必须在多轮交互且具有随机反馈的环境中运行。为了捕捉这些动态,本文将问题建模为一个马尔可夫决策过程(MDP)$M = \{\mathcal{S}, \mathcal{A}, \mathcal{P}\}$,其中 $\mathcal{S}$ 代表状态(例如,观测序列或交互历史),$\mathcal{A}$ 代表动作(通常是 token 序列),而 $\mathcal{P}$ 表示转移动态和奖励生成过程。在每个时间步 $t$,智能体策略 $\pi_\theta$ 根据当前状态 $s_t$ 和交互历史生成一个动作 $a_t$。环境根据当前的转移动态返回一个奖励 $r_t$ 和一个新的状态 $s_{t+1}$:

其中 $h_{<t} = \{s_0, a_0, r_0, ..., s_{t-1}, a_{t-1}, r_{t-1}\}$ 表示交互历史。这个交互过程会持续最大 T 个时间步,产生一个完整的轨迹 $\tau = \{s_0, a_0, r_0, ..., s_T\}$,它构成了智能体的学习材料。</p>

2.2. StarPO:通过轨迹级优化强化推理

引入StarPO框架。本文介绍了 StarPO(State-Thinking-Action-Reward Policy Optimization),一个旨在为 LLM 智能体优化整个多轮交互轨迹的通用 RL 框架。与以往将每个动作独立处理的静态任务方法不同,StarPO 将整个轨迹——包括观测、推理轨迹、动作和反馈——视为一个用于部署和模型优化的连贯单元。其目标是最大化期望的轨迹奖励:

其中 M 是 MDP,$\tau$ 是一个完整的、包含推理增强交互的序列,R($\tau$) 表示整个轨迹的累积奖励。策略概率 $\pi_\theta(\tau)$ 被分解为 token 级别的似然,使得 StarPO 能与自回归 LLM 直接兼容。图 2 阐释了完整的 StarPO 流程。

StarPO 与以往方法的轨迹级目标对比
* 以往方法 (例如, PPO (【45, Proximal policy optimization algorithms, 2017, https://arxiv.org/abs/1707.06347 】), GRPO (【48, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024a, https://arxiv.org/abs/2402.03300 】)):
$J_{\text{step}}(\theta) = \mathbb{E}_{p \sim \mathcal{D}, r \sim \pi_\theta(\cdot|p)} [R(p, r)]$ (优化给定输入 p 的单轮输出 r)
* StarPO (本文方法):
$J_{\text{StarPO}}(\theta) = \mathbb{E}_{\mathcal{M}, \tau \sim \pi_\theta} [R(\tau)]$ (优化整个轨迹 $\tau = \{s_0, a_0, r_0, \dots, s_T\}$ 的总奖励)

2.2.2. 优化过程:从推理-交互轨迹中学习

轨迹生成与优化流程。在每个训练迭代中,智能体从一个初始状态 $s_0$ 开始并生成 N 个轨迹。在每一步 $t$,智能体产生一个由推理引导的结构化输出:

其中 $a_t^{\text{full}}$ 是包含中间推理的完整动作输出,而 $a_t$ 是一个环境可执行的子动作序列。然后,环境返回下一个状态 $s_{t+1}$ 和奖励 $r_t$。部署阶段会产生完整的轨迹 $\tau = \{s_0, a_0^{\text{full}}, r_0, s_1, ..., a_{T-1}^{\text{full}}, r_{T-1}, s_T\}$,其中每个组成部分要么是 LLM 生成的,要么是环境引发的,并将被联合优化。

交错式训练循环。StarPO 交错执行部署和更新步骤。新的部署可以使用当前策略 $\pi_\theta$ 在线生成(on-policy),或者从一个基于旧策略 $\pi_{\text{old}}$ 的重放缓冲区中采样。每个训练循环包含 K 个初始状态 $s_0$,每个状态生成 N 个轨迹,并以批大小 B 进行更新,共进行 T 个循环。这总共产生 $K = K \cdot N \cdot T_{loops}$ 个梯度更新步骤。

2.2.3. 模块化优化策略

支持多种优化算法。StarPO 在一个统一的轨迹级抽象下支持多种策略优化算法。对于每个由 $| \tau_i |$ 个 token 组成的部署轨迹 $\tau_i = \{\tau_{i,(1)}, \dots, \tau_{i,(|\tau_i|)}\}$,本文使用以下优化策略来实例化 StarPO 以进行 token 级更新:
* PPO (【45, Proximal policy optimization algorithms, 2017, https://arxiv.org/abs/1707.06347 】)。本文使用 PPO 目标函数(详见附录 A),其中训练一个评判家(critic)来估计 token 级的价值和优势 $A_{i,j}$:

其中 $B$ 是批次中的轨迹数量,$\tau_{i,(j)}$ 表示轨迹 $\tau_i$ 中的第 $j$ 个 token,$\tau_{i,<j}$ 是其前缀。<br /> * GRPO (【48, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024a, https://arxiv.org/abs/2402.03300 】)。对于利用 GRPO 的无评判家训练,本文为每个轨迹分配一个标量奖励 $R(\tau_i)$,并在 $\tau_i$ 中的所有 token 上进行归一化,得到优势 $\hat{A}_{i,j}$:

GRPO 的目标函数变为:

2.3. RAGEN 系统

RAGEN系统实现。为了在实践中实现 StarPO,本文构建了 RAGEN,一个用于在受控环境中训练 LLM 智能体的完整系统。RAGEN 支持结构化部署、可定制的奖励函数,并能与多轮、随机环境集成。它既是 StarPO 的执行后端,也是一个用于研究推理智能体训练中稳定性、泛化性和学习动态的平台。RAGEN 被设计为可扩展的:新的环境、奖励方案或部署策略可以轻松插入,为基于 RL 的智能体训练奠定基础。


图 2 | 状态-思考-动作-奖励策略优化 (StarPO) 框架。LLM 为与环境的多轮交互生成推理引导的动作,并累积轨迹级奖励,这些奖励经过归一化后用于更新 LLM 策略。

A4 实验环境

  • 数据集/环境

    • Bandit:一个双臂赌博机环境,用于测试在有噪声反馈下的风险敏感推理能力。智能体需在低风险/低回报和高风险/高回报的选项间做选择。
    • Sokoban:一个推箱子游戏,需要不可逆的符号规划能力。智能体需在网格中将箱子推到目标位置。
    • Frozen Lake:一个结合了规划和概率性转移的网格导航任务。智能体需在湿滑的冰面上移动,避免掉入洞中。
    • WebShop:一个涉及自然语言理解和网页交互的真实世界任务。智能体需根据用户请求,通过搜索、点击等操作在模拟的购物网站上找到并购买商品。
      前三个符号环境是简约且完全可控的,便于进行清晰的分析,而 WebShop 增加了真实世界的任务结构和语言输入。
  • 模型架构

    • 主要实验使用 Qwen-2.5 Instruct 0.5B 模型进行三个符号任务的训练。
    • 对于更具挑战性的 WebShop 任务,使用 Qwen-2.5 Instruct 3B 变体。
    • 附录中还报告了更大规模模型(如 7B、72B)的性能。
  • 硬件配置

    • GPU:NVIDIA H100 GPU。
    • 训练平台:利用 veRL 代码库在 H100/A100 GPU 上进行训练。
  • 软件配置

    • 实现/框架:基于 StarPO 框架(PPO 或 GRPO 变体)进行训练。
    • 依赖库:使用 Adam 优化器,GAE(广义优势估计),并应用熵奖励(β=0.001)和响应格式惩罚(-0.1)。
    • 训练细节:每个批次采样 8 个提示,每个提示进行 16 次部署,最多 5 个回合和 10 个动作。训练迭代次数为 100-200 次。
    • 评估:在每个环境的 256 个固定提示上进行评估,使用温度 T=0.5。
    • 度量指标:成功率、部署熵、组内奖励变异性、响应长度、梯度范数。

A4 实验结果

4.1. 多轮智能体 RL 训练引入了新的不稳定模式

基线StarPO性能与崩溃现象

  • 实验内容:评估基线 StarPO(使用 PPO 和 GRPO 优化器)在 Bandit、Sokoban、Frozen Lake 和 WebShop 四个环境中的性能。
  • 实验结果:如图 3 所示,在 Bandit 和 Sokoban 等符号环境中,模型在早期性能提升后最终会崩溃。PPO 在这些环境中比 GRPO 更稳定,崩溃时间更晚,性能峰值更高。然而,在 Frozen Lake 中,GRPO 更稳定,可能是因为该任务的随机性使得状态价值难以估计,从而影响 PPO 评判家的稳定性。在 WebShop 中,两种方法都表现良好,这可能得益于模型强大的语言先验知识和较高的初始奖励。
  • 分析结论(发现1):单轮 RL 方法(如 PPO 和 GRPO)的直接应用在多轮智能体设置中虽能取得早期收益,但常会导致崩溃。PPO 中的评判家可以延迟不稳定性,但无法阻止推理能力的退化,凸显了智能体设置中需要专门的稳定化措施。


图 3 | 基线 StarPO 在不同环境下的性能。像 Bandit 和 Sokoban 这样的符号任务会导致崩溃,而真实世界的 WebShop 起点高且提升快。PPO 在 Bandit 和 Sokoban 中更强,能提供更稳定的 token 级奖励信号;而 GRPO 在 Frozen Lake 中更强,因为其随机性使得状态价值难以估计,在 WebShop 中也更强,因为其强大的初始性能减轻了对评判家稳定梯度的需求。

“回声陷阱”现象
* 实验内容:比较训练早期和晚期智能体的行为轨迹。
* 实验结果:在 Bandit 任务中,早期轨迹展现了对符号意义和期望奖励的多样化推理,而后期响应变得重复和确定性。
* 分析结论(发现2):模型在 RL 训练中陷入了“回声陷阱”(Echo Trap),即过度放大和记忆局部奖励高的推理模板,抑制了探索,导致多样性崩溃和长期性能下降。

崩溃的动态与预警信号
* 实验内容:监控训练过程中的关键指标,包括平均奖励、梯度范数、奖励标准差和输出熵。
* 实验结果:如图 4 所示,奖励标准差和熵的波动通常先于平均奖励(性能)的下降,可作为早期预警信号。而梯度范数的尖峰则标志着不可逆的崩溃。
* 分析结论(发现3):模型崩溃遵循相似的动态模式,可以通过奖励标准差、熵和梯度范数等指标来预测,这为开发稳定化策略提供了动机。


图 4 | 多轮 RL 中的崩溃指标和早期预警信号。平均奖励和梯度范数(左侧图)直接反映崩溃,其平台期和尖峰证实了性能和训练的不稳定性。奖励标准差和熵(右侧图)通常在奖励下降前变得不稳定,可作为早期预警信号。

4.2. StarPO-S:通过实例过滤和梯度塑造稳定多轮 RL

StarPO-S 框架
* 实验内容:为解决不稳定性,提出了 StarPO-S,它包含三个关键修改:
1. 基于不确定性的轨迹过滤:根据重复部署的奖励标准差对任务实例进行排序,只保留奖励变异性高的(即不确定性高的)实例进行训练。
2. KL 项移除:从 PPO 目标中移除 KL 散度惩罚,以鼓励模型探索。
3. 非对称裁剪(Clip-Higher):使用更高的上界裁剪值,允许模型从高奖励部署中更积极地学习。

  • 实验结果:如图 5 所示,过滤掉低方差轨迹能显著延迟或避免崩溃,并提高训练效率。例如,在 FrozenLake 中,保留 75% 的轨迹将稳定期从 100 步延长到 140 步,而保留 50% 则完全避免了崩溃。
  • 分析结论(发现4):在奖励方差高的提示上进行训练可以延迟或消除多轮 RL 中的崩溃。StarPO-S 通过丢弃低信息量的部署来提高性能和效率,这与主动学习的原则一致。


图 5 | 基于不确定性过滤对多轮 RL 稳定性的影响。过滤掉低变异性轨迹可以降低崩溃风险并提高成功率。在 PPO 变体上,当过滤掉一半以上的轨迹时,崩溃在很大程度上得到缓解。训练时间也减少了。

StarPO-S 整体性能
* 实验内容:在三个任务中比较 StarPO-S 与基线 StarPO 的性能。
* 实验结果:如图 6 所示,StarPO-S 在所有四个任务中都一致地延迟了崩溃,并提升了最终的任务性能。
* 分析结论:性能提升归因于更具选择性的训练数据(不确定性过滤)和更平衡的优化信号(KL 移除和解耦裁剪),从而减少了狭隘的推理模式。


图 6 | StarPO-S 提高了任务的稳定性和最终性能。与普通的 StarPO 相比,StarPO-S 缓解了所有四个任务中的崩溃,并能实现更高的成功率。

4.3. 为 RL 训练生成有用的轨迹

影响轨迹质量的因素
* 实验内容:研究了三个关键部署维度对泛化性能的影响:任务多样性、交互粒度(每轮动作数)和部署频率。
* 实验结果
1. 任务多样性(表 1):更高的任务多样性(每个提示的响应较少,但仍有多个)能带来更好的泛化能力,因为它允许智能体在相似条件下对比不同结果。
2. 交互粒度(表 2):每轮 5-6 个动作的预算表现最佳,这为规划提供了足够空间,同时避免了过长部署带来的噪声。
3. 部署频率(图 7):使用更新鲜的部署(Online-1,即每次更新都重新收集轨迹)能实现更快的收敛和更好的泛化,因为它减少了策略与数据之间的不匹配。

  • 分析结论(发现5):任务多样性、适度的动作预算和高频率的部署更新是影响轨迹质量和 RL 训练效果的关键因素。

Table 1 | 任务多样性对泛化性能的影响 (%)。更高的多样性和多个响应(每个提示4个响应)产生了最佳性能。

Table 2 | 不同每轮动作预算下各环境的性能 (%)。每轮 5–6 个动作为有效多步规划提供了最佳平衡。


图 7 | 不同部署频率(Online-K)下的性能。我们改变了部署重用因子 K,其中每批数据被重用于 K 次策略更新。较低的 K(例如,Online-1)意味着更频繁的部署。更新鲜的数据通过与当前策略保持一致来改善收敛。

4.4. 如果没有精细奖励,推理能力会在多轮设置中衰退

推理对泛化能力的影响
* 实验内容:在单轮 Bandit 任务和多轮 Sokoban 任务中,比较有推理(<think> 块)和无推理的智能体在泛化任务上的表现。
* 实验结果(表 3):在单轮 Bandit 任务中,带推理的模型泛化能力更强,即使在符号与奖励不一致的 BanditRev 任务中也是如此。然而,在多轮 Sokoban 任务中,推理带来的好处很小或不确定。
* 分析结论:在单轮任务中,推理轨迹有助于模型内化符号线索,超越表面记忆。

推理信号的衰退
* 实验内容:分析在多轮任务训练过程中,推理轨迹的长度(<think> 块中的 token 数量)变化。
* 实验结果(表 4):在多轮任务中,推理轨迹的长度随着训练的进行而持续缩短,表明模型正在抑制自己的思考过程。只有在语义不一致、推理至关重要的 BanditRev 任务中,推理轨迹才保持较长。
* 分析结论(发现6):在没有明确鼓励可解释中间步骤的奖励设计下,推理能力无法在多轮环境中持续存在。当奖励信号只关注最终结果时,模型会逐渐退化到绕过推理的捷径行为。这表明,要让智能体涌现出稳定的推理能力,必须进行精细的奖励设计,例如对推理质量本身进行奖励。

Table 3 | 在 StarPO-S 下,有无推理的泛化性能 (%)。在单轮 Bandit 任务中,禁用推理显著降低了泛化能力,但在多轮 Sokoban 任务中效果好坏参半或影响甚微。
Table 4 | 不同训练步骤的推理长度(<think> 块长度)。Token 长度通常随时间下降,而像 ReverseBandit 这样上下文挑战性更强的问题比原始对应问题需要更多的推理。

A7 补充细节

5. 相关工作

LLM多步推理与智能体框架的进展。近期工作探索了通过强化学习(RL)微调 LLM 以进行多步推理,并开发智能体框架来结构化决策任务。在推理方面,技术范围从经典的 PPO(【45, Proximal policy optimization algorithms, 2017, https://arxiv.org/abs/1707.06347】)和演员-评论家方法( 【13, Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor, 2018, https://arxiv.org/abs/1801.01290】)到通过元标记进行结构化提示( 【12, Think before you speak: Training language models with pause tokens, 2024, https://arxiv.org/abs/2310.02226】; 【18, Thinking tokens for language modeling, 2024, https://arxiv.org/abs/2405.08644】)。策略变体 如 RLOO(【26, Buy 4 REINFORCE samples, get a baseline for free!, 2019, https://openreview.net/forum?id=r1lgTGL5DE】)、GRPO( 【7, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, https://arxiv.org/abs/2501.12948】) 和 DAPO(【66, Dapo: An open-source llm reinforcement learning system at scale, 2025, https://arxiv.org/abs/2503.14476】)能够稳定训练并提高样本效率。并行的工作 如 STaR(【67, Star: Bootstrapping reasoning with reasoning, 2022, https://arxiv.org/abs/2203.14465】)和基 于 MCTS 的推理(【14, Reasoning with language model is planning with world model, 2023a, https://arxiv.org/abs/2305.14992】)以最少的监督促进了逐步推理 。

智能体系统与基准测试。在智能体方面,系统已从早期的反应式规划(【62, Rewoo: Decoupling reasoning from observations for efficient augmented language models, 2023, https://arxiv.org/abs/2305.18323】; 【65, React: Synergizing reasoning and acting in language models, 2022b, https://arxiv.org/abs/2210.03629】)发展到模块化的决策流水线( 【34, Llm+ p: Empowering large language models with optimal planning proficiency, 2023, https://arxiv.org/abs/2304.11477】; 【59, Autogen: Enabling next-gen llm applications via multi-agent conversation framework, 2023, https://arxiv.org/abs/2308.08155】)、多智能体协作( 【28, Camel: Communicative agents for" mind" exploration of large language model society, 2023】;【56, Rethinking the bounds of llm reasoning: Are multi-agent discussions the key?, 2024a, https://arxiv.org/abs/2402.18272】)和具身交互( 【29, Embodied agent interface: Benchmarking llms for embodied decision making, 2025, https://arxiv.org/abs/2410.07166】; 【33, Advances in embodied navigation using large language models: A survey, 2024b, https://arxiv.org/abs/2311.00530】)。 像 Sokoban(【25, Sokoban: Enhancing general single-agent search methods using domain knowledge, 2001, https://doi.org/10.1016/S0004-3702(01)00109-6】)、FrozenLake( 【8, The frozen lake problem. an example of optimization policy, 2021】)和 WebShop(【64, Webshop: Towards scalable real-world web interaction with grounded language agents, 2022a】)等基准测试为评估不同动态下的推理能力提供了受控的测试平台。本文的工作建立在这些进展之上,旨在将基于 RL 的推理与跨符号和以语言为中心的任务的结构化智能体训练统一起来。更多相关工作在附录 B 中进行了总结。

A5 结论

本文介绍了 RAGEN,一个用于在多轮、随机环境中通过强化学习训练语言智能体的通用系统。RAGEN 基于 StarPO 框架构建,能够实现推理引导的轨迹优化,并揭示了智能体训练独有的新挑战,如梯度崩溃、部署漂移和推理能力退化。通过广泛的实验,本文确定了稳定训练的关键设计原则,包括部署过滤、梯度塑造和奖励感知的推理监督。这些见解为构建更鲁棒、泛化能力更强的 LLM 智能体提供了基础。本文的框架为研究跨领域(如符号推理和网页浏览)的自主语言智能体提供了一个可扩展的平台。

本文的局限性包括:主要关注相对小规模的任务,忽略了如重放缓冲区等已建立的 RL 实践,并且没有涉及多模态任务——这些都将留待未来工作解决。

A6 附录

A. 强化学习背景

强化学习通用目标。强化学习(RL)使基础模型能够通过交互和奖励信号进行学习。通用的 RL 目标是:

其中 $\pi_\theta$ 是策略,p 是输入提示,r 是响应,R(p, r) 是评估响应质量的奖励函数。

PPO算法。常见方法使用奖励建模和策略优化进行 RL。近端策略优化(PPO)【45, Proximal policy optimization algorithms, 2017, https://arxiv.org/abs/1707.06347】通过概率比率裁剪和优势估计来稳定训练。概率比率定义为 :

PPO 目标函数使用该比率进行裁剪:

其中概率比率为 $r_t(\theta) = \frac{\pi_\theta(a_t|p)}{\pi_{\theta_{\text{old}}}(a_t|p)}$,裁剪后的比率为 $\hat{r}_t(\theta) = \text{clip}(r_t(\theta), 1 - \epsilon, 1 + \epsilon)$。

GAE优势估计。对于优势估计,广义优势估计(GAE)【46, High-dimensional continuous control using generalized advantage estimation, 2018, https://arxiv.org/abs/1506.02438】计算如下 :

其中 $\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$ 是时序差分(TD)误差,($\gamma, \lambda$) 控制偏差-方差的权衡。

GRPO算法。最近,DeepSeek-R1-Zero【5, Deepseek LLM: scaling open-source language models with longtermism, 2024, https://doi.org/10.48550/arXiv.2401.02954】通过组相对策略优化(GRPO)实现了这一范式,为每个提示采 样 N 个输出 {$r_i$}(包含推理和动作),并优化:

其中:

虽然与等式3大部分相似,但 GRPO 的优势是无神经网络模型的,计算方式为:

使用基于规则的奖励 $R_i$,这种纯 RL 方法展示了涌现的推理行为。

B. 扩展的相关工作

用于 LLM 推理的强化学习。在 LLM 上应用强化学习(RL)【2, Decision transformer: Reinforcement learning via sequence modeling, 2021, https://arxiv.org/abs/2106.01345】、 【4, Deep reinforcement learning from human preferences, 2023, https://arxiv.org/abs/1706.03741】、 【16, Teaching large language models to reason with reinforcement learning, 2024, https://arxiv.org/abs/2403.04642】、 【39, Training language models to follow instructions with human feedback, 2022, https://arxiv.org/abs/2203.02155】显著提升 了 LLM 的推理能力。著名的方法包括使用近端策略优化算法(PPO)【45, Proximal policy optimization algorithms, 2017, https://arxiv.org/abs/1707.06347】(通过裁剪策略更新来维持训练稳定性并提升性能)、组相对策略优化(GRPO) 【7, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, https://arxiv.org/abs/2501.12948】(用于增强系统性问题解决能力)、类 似 SAC 的演员-评论家方法【13, Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor, 2018, https://arxiv.org/abs/1801.01290】 和 ArCHer【72, Archer: Training language model agents via hierarchical multi-turn rl, 2024, https://arxiv.org/abs/2402.19446】(利用评论家促进鲁棒的探索和稳定性),以及用于结构化思维的元标记 【12, Think before you speak: Training language models with pause tokens, 2024, https://arxiv.org/abs/2310.02226】、 【18, Thinking tokens for language modeling, 2024, https://arxiv.org/abs/2405.08644】、 【42, Let’s think dot by dot: Hidden computation in transformer language models, 2024, https://arxiv.org/abs/2404.15758】。其他重要进展包括过程奖励模型(PRM) 【30, Let’s verify step by step, 2023, https://arxiv.org/abs/2305.20050】、 【71, The lessons of developing process reward models in mathematical reasoning, 2025, https://arxiv.org/abs/2501.07301】和基于蒙特卡洛树搜索(MCTS)的方法 【14, Reasoning with language model is planning with world model, 2023a, https://arxiv.org/abs/2305.14992】用于系统性问题解决。另一方面,最近 在 LLM 推理方面的进展探索了使模型能够生成中间思维链(chain-of-thought)理据的技术。特别是,STaR【67, Star: Bootstrapping reasoning with reasoning, 2022, https://arxiv.org/abs/2203.14465】迭代地利用一小部分理据示例和大量无理据的数据集。最近的工作 如 SimpleRL-Zoo【69, Simplerl-zoo: Investigating and taming zero reinforcement learning for open base models in the wild, 2025b, https://arxiv.org/abs/2503.18892】、DAPO 【66, Dapo: An open-source llm reinforcement learning system at scale, 2025, https://arxiv.org/abs/2503.14476】、RLOO 【26, Buy 4 REINFORCE samples, get a baseline for free!, 2019, https://openreview.net/forum?id=r1lgTGL5DE】 、Dr. GRPO【36, Understanding r1-zero-like training: A critical perspective, 2025, https://arxiv.org/abs/2503.20783】 和 Open Reasoner Zero【20, Open-reasoner-zero: An open source approach to scaling up reinforcement learning on the base model, 2025a, https://arxiv.org/abs/2503.24290】都表明,简约、可复现 的 RL 技术——以解耦裁剪、无偏优化和简单奖励方案为特点——可以显著增强 LLM 的推理性能。

现有的智能体框架。基于 LLM 的智能体架构已从早期的推理-行动框架【31, Swiftsage: A generative agent with fast and slow thinking for complex interactive tasks, 2024a】、【51, Reflexion: Language agents with verbal reinforcement learning, 2024】、【62, Rewoo: Decoupling reasoning from observations for efficient augmented language models, 2023, https://arxiv.org/abs/2305.18323】、 【65, React: Synergizing reasoning and acting in language models, 2022b, https://arxiv.org/abs/2210.03629】发展到结构化方法 【14, Reasoning with language model is planning with world model, 2023a, https://arxiv.org/abs/2305.14992】、 【34, Llm+ p: Empowering large language models with optimal planning proficiency, 2023, https://arxiv.org/abs/2304.11477】、 【35, Reason for future, act for now: A principled framework for autonomous llm agents with provable sample efficiency, 2024, https://arxiv.org/abs/2309.17382】、 【68, Reinforcing multi-turn reasoning in llm agents via turn-level credit assignment, 2025a, https://arxiv.org/abs/2505.11821】。多智能体系统 【3, Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents, 2023】、【9, Improving factuality and reasoning in language models through multiagent debate, 2023】、【28, Camel: Communicative agents for" mind" exploration of large language model society, 2023】、【56, Rethinking the bounds of llm reasoning: Are multi-agent discussions the key?, 2024a, https://arxiv.org/abs/2402.18272】被设计用于更复杂交互的任务。广泛使用的平台 如 OpenAI Gym【1, Openai gym, 2016, https://arxiv.org/abs/1606.01540】和专业环境包 括 Sokoban【25, Sokoban: Enhancing general single-agent search methods using domain knowledge, 2001, https://doi.org/10.1016/S0004-3702(01)00109-6】、FrozenLake 【8, The frozen lake problem. an example of optimization policy, 2021】和 Webshop【64, Webshop: Towards scalable real-world web interaction with grounded language agents, 2022a】为评估这些智能体提供了多样化的测试平台。此外,通用系统【15, Toolkengpt: Augmenting frozen language models with massive tools via tool embeddings, 2023b】、【50, Hugginggpt: Solving ai tasks with chatgpt and its friends in hugging face, 2024】、【59, Autogen: Enabling next-gen llm applications via multi-agent conversation framework, 2023, https://arxiv.org/abs/2308.08155】、 【61, Openagents: An open platform for language agents in the wild, 2023, https://arxiv.org/abs/2310.10634】、 【73, Toolchain: Efficient action space navigation in large language models with a search, 2023, https://arxiv.org/abs/2310.13227】已在网页导航和搜索 【23, An empirical study on reinforcement learning for reasoning-search interleaved llm agents, 2025a, https://arxiv.org/abs/2505.15117】、 【24, Search-r1: Training llms to reason and leverage search engines with reinforcement learning, 2025b, https://arxiv.org/abs/2503.09516】、 【43, Webrl: Training llm web agents via self-evolving online curriculum reinforcement learning, 2025, https://arxiv.org/abs/2411.02337】、 【58, Webagent-r1: Training web agents via end-to-end multi-turn reinforcement learning, 2025, https://arxiv.org/abs/2505.16421】、代码助手 【6, Deepseek-coder-v2: Breaking the barrier of closed-source models in code intelligence, 2024, https://arxiv.org/abs/2406.119