Asymmetric Proximal Policy Optimization: Mini-critics Boost LLM Reasoning

发表时间: 2025-10 · arXiv:2510.01656 (HKUST / Alibaba / Mila)

文章标题:非对称近端策略优化:迷你critics增强大语言模型推理能力
作者/机构:Jiashun Liu (香港科技大学, 阿里巴巴集团), Johan Obando-Ceron (Mila, 蒙特利尔大学), Han Lu (阿里巴巴集团), Yancheng He (阿里巴巴集团), Weixun Wang (阿里巴巴集团), Wenbo Su (阿里巴巴集团), Bo Zheng (阿里巴巴集团), Pablo Samuel Castro (Mila, 蒙特利尔大学), Aaron Courville (Mila, 蒙特利尔大学), Ling Pan (香港科技大学)

A1 主要贡献

本文旨在解决将近端策略优化(PPO)应用于大规模语言模型(LLM)时遇到的计算瓶颈和性能问题。传统的PPO采用与actor同样大小的对称critic,这在LLM规模下计算成本高昂,且在稀疏奖励和长推理时域下训练不稳定且不准确。因此,当前的RL4LLM方法大多放弃了critic,转而使用平均优势基线。本文重新审视了这一瓶颈,并提出一个核心问题:我们能否通过重新设计PPO,摒弃标准的对称actor-critic架构,来实现轻量级且鲁棒的价值估计,从而实现稳定高效的学习?

为解决此问题,本文提出非对称近端策略优化(Asymmetric Proximal Policy Optimization, AsyPPO),一个简单且可扩展的框架,在保持大模型环境下高效的同时,恢复了critic的作用。其核心创新点如下:

  1. 轻量级非对称架构:AsyPPO采用一组轻量级的“迷你critics”(mini-critics)来指导一个更大的actor模型。研究发现,得益于预训练模型强大的初始表征能力,即使是小型的critic(如Qwen3-0.6b-Base)也能为大型actor(如Qwen3-8b-Base)提供有意义的指导。这种设计显著降低了计算开销和内存占用(如图1右所示),减轻了critic的过参数化问题。

  2. 通过数据划分实现鲁棒的集成估计:为解决单个小critic能力有限以及朴素集成(naive ensemble)因初始化相同而导致行为趋同的问题,AsyPPO引入了一种在提示(prompt)级别不重叠的数据划分策略。每个迷你critic在不重叠的提示响应子集上进行训练,这既鼓励了critic之间的行为多样性,又保证了它们在每个问题上的感知同步,从而减少了价值估计的偏差,提供了更鲁棒的价值信号(如图1左所示)。

  3. 基于不确定性的策略目标优化:AsyPPO进一步利用了多个迷你critic之间价值估计的一致性(agreement)分歧(divergence)作为优化策略的信号。

    • 优势掩码(Advantage Masking):在critics对某个状态的价值估计高度一致(即标准差低)时,掩盖该状态的优势值。这被认为可以减少对信息量低的样本的过拟合,提高训练稳定性。
    • 熵过滤(Entropy Filtering):在critics对某个状态的价值估计分歧很大(即标准差高)时,从熵正则化项中过滤掉这些状态。这旨在抑制在与推理无关或充满噪声的状态上的无效探索,从而促进更安全的探索。

通过这些设计,AsyPPPO在仅使用5000个开源数据样本进行训练后,在多个基准测试中相较于GRPO等强基线模型,展现出更稳定的学习过程和更优的性能。例如,在Qwen3-4b-Base上性能提升超过6%,在Qwen3-8b-Base和Qwen3-14b-Base上相比经典PPO提升约3%,且无需额外技巧。

图1:(左):可学习的critic通过细粒度的价值估计自然地增强了策略的稳定性,并随着训练的进行产生持续的收益。离策略比率=8,在6个基准测试(AIME 24, AIME 25, MATH-500, OlympiadBench, MinervaMath, and AMC 2023)上的4次平均结果。(右):AsyPPO在PPO中恢复了critic的作用,同时在LLM规模的训练下保持了轻量级和稳定性。AsyPPO的平均训练时钟时间和峰值GPU内存使用量显著低于经典PPO,并保持在GRPO的水平。
图1:(左):可学习的critic通过细粒度的价值估计自然地增强了策略的稳定性,并随着训练的进行产生持续的收益。离策略比率=8,在6个基准测试(AIME 24, AIME 25, MATH-500, OlympiadBench, MinervaMath, and AMC 2023)上的4次平均结果。(右):AsyPPO在PPO中恢复了critic的作用,同时在LLM规模的训练下保持了轻量级和稳定性。AsyPPO的平均训练时钟时间和峰值GPU内存使用量显著低于经典PPO,并保持在GRPO的水平。
图2:AsyPPO背后的直观视觉解释。当表征被良好初始化时,小而富有表达力的critics可以有效地指导更大的actors。(a):单个critic难以对齐其价值信号,导致不确定的策略更新。两个小critics达成共识(“This way”),为actor提供鲁棒、低方差的指导。(b):通过利用表征先验和critic一致性,AsyPPO在各种策略模型(即Qwen3-4b-Base和Qwen3-8b-Base)的性能上显著优于经典PPO。Y轴表示对初始策略的改进。分数计算方式与图1相同。
图2:AsyPPO背后的直观视觉解释。当表征被良好初始化时,小而富有表达力的critics可以有效地指导更大的actors。(a):单个critic难以对齐其价值信号,导致不确定的策略更新。两个小critics达成共识(“This way”),为actor提供鲁棒、低方差的指导。(b):通过利用表征先验和critic一致性,AsyPPO在各种策略模型(即Qwen3-4b-Base和Qwen3-8b-Base)的性能上显著优于经典PPO。Y轴表示对初始策略的改进。分数计算方式与图1相同。

总结贡献如下

  1. 鲁棒估计:通过提示级别的数据划分增强了集成critic的可靠性,并带来了持续的性能提升。
  2. 轻量级架构:非对称设计减轻了critic的过参数化问题,为RL4LLM开辟了新的方向。
  3. 目标函数优化:引入了两种基于不确定性的PPO目标函数修改,提高了样本效率并实现了更安全的探索。

A3 背景知识

2 预备知识

近端策略优化 (PPO)。PPO【【37】,Proximal policy optimization algorithms,2017,arXiv】是策略梯度家族中一种广泛使用的actor-critic算法。它通过优化一个裁剪的代理目标函数来提高稳定性,该函数限制了更新后的策略$π_θ$在每个更新步骤中与旧策略$π_{θ_{old}}$的偏离程度。目标函数定义为:

公式1
公式1

其中,$π_θ$和$π_{θ_{old}}$分别表示当前策略和旧策略。这里,$q$是一个采样的问题,$o$是生成的输出序列,其中$o_t$是第$t$个token。$ϵ$是限制更新比例的裁剪超参数。$A_t$是步骤$t$的优势估计,通常使用广义优势估计(GAE)【【36】,High-dimensional continuous control using generalized advantage estimation,2015,arXiv】计算。

广义优势估计 (GAE)。GAE通过将多步回报与指数衰减的权重相结合来解决优势估计中的偏差-方差权衡问题:

公式2
公式2

这里$V(s)$是价值函数,$γ \in [0, 1]$是折扣因子,$λ \in [0, 1]$是平衡偏差和方差的GAE参数。设置$λ = 0$会恢复到低方差、高偏差的TD(0)估计器,而$λ = 1$则对应于高方差、低偏差的蒙特卡洛估计器。在实践中,PPO将GAE与裁剪的目标函数结合使用,从而产生稳定的训练和更高的样本效率。$γ$和$λ$的选择对优势估计的时间跨度和光滑度,乃至策略的收敛性,都有着至关重要的影响。

3 相关工作

基于Critic的RL4LLM算法。Shao等人【【38】,Deepseekmath: Pushing the limits of mathematical reasoning in open language models,2024,arXiv】首次证明,使用基于结果奖励的大规模强化学习(RL)可以从一个未对齐的基础模型开始,解锁长尾推理能力。这一发现催生了近端策略优化(PPO)算法的众多变体。据我们所知,大多数算法研究主要基于基线归一化的优势计算方法【【2】,Minimax-m1: Scaling test-time compute efficiently with lightning attention,2025,arXiv;【13】,Reinforce++: A simple and efficient approach for aligning large language models,2025,arXiv;【26】,Understanding r1-zero-like training: A critical perspective,2025,arXiv】。

价值函数算法创新相对较少。另一方面,基于价值的算法创新相对较少。Yuan等人【【53】,What’s behind ppo’s collapse in long-cot? value optimization holds the secret,2025,ArXiv】认为,折扣因子不适用于需要长思维链(CoT)的复杂推理任务。Yue等人【【54】,Vapo: Efficient and reliable reinforcement learning for advanced reasoning tasks,2025,arXiv】、Zhao等人【【56】,Geometric-mean policy optimization,2025,arXiv】和Zhu等人【【58】,未知论文】提出了新机制,以增强critic模型在面对噪声奖励信号时的鲁棒性。Open-Reasoner-Zero【【14】,Open-reasoner-zero: An open source approach to scaling up reinforcement learning on the base model,2025,arXiv】认为,没有KL正则化的香草PPO足以稳定地扩展训练。T-PPO【【6】,Truncated proximal policy optimization,2025,arXiv】使用critic来增强策略在长尾异步设置下的训练稳定性【【7】,Areal: A large-scale asynchronous reinforcement learning system for language reasoning,2025,arXiv】。另一条引入类critic模型的类似研究路线是通过引入隐式PRM(Implicit PRM)【【52】,Free process rewards without process labels,2025,Forty-second International Conference on Machine Learning】完成的。这种方法也能够为可扩展的RL训练提供token级别的监督。PRIME【【4】,Process reinforcement through implicit rewards,2025,ArXiv】调整了一种特定的奖励模型公式,以直接生成token级别的奖励。然而,当前主流的RL4LLM算法主要强调无critic的优化【【58】,A survey of reinforcement learning for large reasoning models,2025】。在此背景下,我们的研究旨在强调critic在RL4LLM场景中的重要性,并试图解决与critic相关的部署限制。

非对称架构。在连续深度强化学习领域,近期的研究通过降低actor网络的能力,探索了非对称网络结构的潜力。例如,Mastikhina等人【【29】,Optimistic critics can empower small actors,2025,arXiv】和Mysore等人【【31】,Honey. i shrunk the actor: A case study on preserving performance with smaller actors in actor-critic rl,2021,IEEE Conference on Games (CoG)】提出,与critic相比,actor可以用显著更小的容量有效运作。Tan等人【【39】,Rlx2: Training a sparse deep reinforcement learning model from scratch,2205,ArXiv】的经验证据支持了这一观点,证明稀疏化策略网络可以在显著提高推理和训练速度的同时,增强有效的策略学习。此外,Liu等人【【24】,Neuroplastic expansion in deep reinforcement learning,2025,The Thirteenth International Conference on Learning Representations】发现,基于试验梯度的actor网络拓扑修剪可以产生更好的性能。同样,Ma等人【【28】,Network sparsity unlocks the scaling potential of deep reinforcement learning,2025,Forty-second International Conference on Machine Learning】揭示,即使在SimBa网络架构【【18】,Simba: Simplicity bias for scaling up parameters in deep reinforcement learning,2024,ArXiv】内对actor网络进行随机修剪,也能保持性能。这些贡献凸显了RL对非对称设计的适应性,为我们的研究提供了宝贵的见解。然而,现有工作主要集中在简单网络框架内减小actor的尺寸。本文开创性地探索了在RL4LLM场景下,通过优化PPO来有效指导小型critic为大型actor提供信息。

A2 方法细节

4 非对称近端策略优化

我们首先通过经验性地检验非对称actor-critic框架的潜力,同时强调了朴素集成critics在LLM推理中的局限性。通过分析经典深度强化学习与RL4LLM之间的关键差异,我们提出了一种组级别(group-level)的非重叠数据划分策略,使得轻量级的迷你critics能够提供可靠的价值估计(§4.1)。在此基础上,我们研究了迷你critics之间分歧与一致性的作用,并发现其价值估计中的不确定性为衡量样本质量提供了强大的表征能力。利用这一洞察,我们将价值不确定性作为信号融入策略优化目标中,重新构建了损失函数并改进了熵正则化,以提高策略的样本效率和探索能力(§4.2)。

图3:左:由Qwen3-0.6b-Base参数化的单个迷你critic可以有效地指导跨模型规模的策略。中:两个集成critics对策略的指导能力存在显著差异。Actors统一使用Qwen3-8B-Base,而critics使用Qwen3-0.6B-Base。右:我们的集成方法加剧了迷你critics之间的认知差异。y轴表示两个迷你critics计算出的价值之间的标准差。我们在从DeepMath-103K【【12】,Deepmath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning,2025,arXiv】采样的5000个问题上进行训练,并在五个具有挑战性的数学基准上评估策略:AIME 2024, MATH-500, OlympiadBench, MinervaMath, 和 AMC 2023。对于每个问题,我们报告4次生成的平均值。
图3:左:由Qwen3-0.6b-Base参数化的单个迷你critic可以有效地指导跨模型规模的策略。中:两个集成critics对策略的指导能力存在显著差异。Actors统一使用Qwen3-8B-Base,而critics使用Qwen3-0.6B-Base。右:我们的集成方法加剧了迷你critics之间的认知差异。y轴表示两个迷你critics计算出的价值之间的标准差。我们在从DeepMath-103K【【12】,Deepmath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning,2025,arXiv】采样的5000个问题上进行训练,并在五个具有挑战性的数学基准上评估策略:AIME 2024, MATH-500, OlympiadBench, MinervaMath, 和 AMC 2023。对于每个问题,我们报告4次生成的平均值。

4.1 迈向轻量级价值估计

非对称架构的潜力和局限性。在LLM推理中,策略在初始化时继承了预训练模型的表达能力。如图3(左)所示,即使没有对critic进行预热,一个小型critic,即Qwen3-0.6B-Base【【46】,Qwen3 technical report,2025,arXiv】,也能提供有用的指导,展示了非对称架构的潜力。然而,由于稀疏奖励以及小型critic对大型模型偏好的长尾推理轨迹【【21】,Tl; dr: Too long, do re-weighting for effcient llm reasoning compression,2025,arXiv】不熟悉,其价值估计常常不准确,导致与对称PPO相比,策略指导效果欠佳。

朴素集成critic的局限性。为了增强迷你critic的感知能力,我们首先采用了集成critics,这是经典深度强化学习中减少估计偏差的标准技术【【3】,Randomized ensembled double q-learning: Learning fast without a model,2021,arXiv】。实践中,我们在同一基础模型上添加了第二个critic,并将其预测值平均用于价值估计。这些校正后的价值随后通过GAE用于优势计算。然而,如图3(中)所示,这种朴素的集成方法带来的改进有限。原因在图3(右)中变得清晰:两个迷你critic表现出几乎完全相同的行为,未能提供集成方法所依赖的多样性。在经典RL中,critics是随机初始化的,确保了参数多样性和差异化的价值估计,这对于集成的有效性至关重要。相比之下,在RL4LLM中,critics通常从相同的预训练模型初始化,这虽然加速了学习,但降低了多样性。这引出一个问题:在同质初始化的情况下,集成critics在LLM推理中还能保持有效吗?

组级不重叠数据划分。除了通过初始化明确增加参数差异外,另一个有前景的方法是在训练期间为每个critic提供差异化的优化信号。直观上,在不重叠的数据子集上训练critics会鼓励它们从不同的轨迹和奖励分布中学习,从而引导它们的更新走向不同方向,促进功能多样性。然而,在实践中,随机划分训练数据可能导致在提示(prompt)层面上的感知异步,即critics会遇到来自不同问题的不一致推理模式。这种不平衡增加了对特定响应类型过拟合的风险,导致价值估计出现不稳定的差异。在极端情况下,这种分歧可能导致策略崩溃。为了缓解这个问题,我们在提示级别上将数据均匀地划分为不相交的子集,确保每个critic在每个提示(或组)内接收到相同份额的响应。这种设计在每个问题内部保持了critics之间的感知同步,同时创造了差异化的奖励和观察。我们的集成critic训练过程可以形式化为:

公式3
公式3

其中$M$是迷你critic的数量,其参数为$\{ϕ_m\}^M_{m=1}$。每个critic旨在根据其分配的子集$D = \cup^M_{m=1} D_m, D_i \cap D_j = \emptyset$来拟合回报$R_t$。校正后的优势$\bar{A}$可以得到:

公式4
公式4

图3(中、右)的结果表明,在我们集成策略下训练的critics表现出明显差异化的行为。从语言学角度的统计分析(图4)显示,我们集成框架校正后的价值显著鼓励策略学习核心推理模式。总的来说,我们的方法有效地释放了非对称PPO的效率,并为RL4LLM算法设计指明了一个有前景的新方向。

图4:我们的集成critics实现了对涉及关键推理模式的状态的正向估计。我们遵循Gandhi等人【【8】,Cognitive behaviors that enable self-improving reasoners, or, four habits of highly effective stars,2025,arXiv】的方法,通过GPT4-o【【16】,Gpt-4o system card,2024,arXiv】识别推理行为,并聘请训练有素的Qwen3-0.6b-Base作为迷你critics,Qwen3-8b-Base作为普通critic。
图4:我们的集成critics实现了对涉及关键推理模式的状态的正向估计。我们遵循Gandhi等人【【8】,Cognitive behaviors that enable self-improving reasoners, or, four habits of highly effective stars,2025,arXiv】的方法,通过GPT4-o【【16】,Gpt-4o system card,2024,arXiv】识别推理行为,并聘请训练有素的Qwen3-0.6b-Base作为迷你critics,Qwen3-8b-Base作为普通critic。

要点 1
优化集成critic设计增强了非对称actor-critic的学习能力,同时显著降低了计算开销。

4.2 策略损失重构

利用critic间一致性作为优化信号。除了实现鲁棒的价值估计,我们推测集成迷你critics可以进一步提高策略学习的效率。直观上,critics对给定状态的价值估计的一致性程度可以作为策略优化的一个有意义的信号。这一见解源于我们对价值拟合动态的分析【【19】,Sunrise: A simple unified framework for ensemble learning in deep reinforcement learning,2021,International conference on machine learning】:当critics对一个状态$s_i$产生相似的价值估计时,通常表明$s_i$的信息量较低。这类状态在轨迹中频繁出现,它们产生的奖励方差较小,导致critics的预测趋于一致,如图5(a)所示。附录B中的分析表明,价值标准差(value-std)与策略梯度之间存在正相关关系,支持了上述推测。

图5:(a):critics之间的一致性意味着该状态的下游动态已被策略很好地建模,使得这些样本对于学习的价值较低,最好避免以防过拟合。(b):在高数据重用设置(UTD=4)下,掩盖底部20%(按价值标准差)的样本提升了AsyPPO的学习效率,带来了约6个点的改进。六个基准测试的准确率记录遵循图1(b)。(c):我们在香草AsyPPO(基线)上评估了两种5%的掩码机制,即熵与价值标准差。基于价值标准差的掩码产生了最强的学习效率增益。Actors使用Qwen3-4B-Base,而critics使用Qwen3-0.6B-Base。
图5:(a):critics之间的一致性意味着该状态的下游动态已被策略很好地建模,使得这些样本对于学习的价值较低,最好避免以防过拟合。(b):在高数据重用设置(UTD=4)下,掩盖底部20%(按价值标准差)的样本提升了AsyPPO的学习效率,带来了约6个点的改进。六个基准测试的准确率记录遵循图1(b)。(c):我们在香草AsyPPO(基线)上评估了两种5%的掩码机制,即熵与价值标准差。基于价值标准差的掩码产生了最强的学习效率增益。Actors使用Qwen3-4B-Base,而critics使用Qwen3-0.6B-Base。

基于价值一致性的优势掩码。近期的研究表明,防止策略对低信息量样本过拟合可以显著提高学习效率【【25】,The courage to stop: Overcoming sunk cost fallacy in deep reinforcement learning,2025,Forty-second International Conference on Machine Learning】。由于critics之间的一致性程度反映了状态的信息量,其中高一致性意味着低不确定性和有限的学习潜力,我们使用critics输出的标准差来量化优化给定状态的收益。具体来说,我们识别出一致性最高(即标准差最低)的前k%的状态,并在策略损失中掩盖它们对应的优势。这抑制了来自低信息量转换的梯度更新,过滤掉噪声或冗余的学习信号,将策略优化引向更高价值的数据。由此产生的策略损失目标函数为:

公式5
公式5

这里,$\sigma_t = std(\{V(s_t; \phi_m)\}^M_{m=1})$表示状态$s_t$价值估计的一致性。重要性采样定义为$IS_t = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}$。图5(b)显示,通过掩盖critic收敛度最高的20%状态对应的优势,即使在高样本重用率(更新与数据比率UTD=4,即每个样本用于训练四次)下,策略也表现出稳定的学习动态,并显著提高了样本效率。我们进一步比较了基于价值标准差(critic侧不确定性)和基于熵(策略侧不确定性)【【5】,The entropy mechanism of reinforcement learning for reasoning language models,2025,arXiv;【33】,Controlling large language model agents with entropic activation steering,2024,arXiv;【43】,Beyond the 80/20 rule: High-entropy minority tokens drive effective reinforcement learning for llm reasoning,2025,arXiv】的掩码方法,每步根据各自的指标掩盖相同比例的状态。图5(c)显示,基于价值标准差的掩码始终带来更强的学习收益。这一观察与经典RL的发现相呼应【【32】,Deep exploration via bootstrapped dqn,2016,Advances in neural information processing systems】,即基于集成的价值不确定性可作为学习动态的代理。图6揭示了低价值标准差的状态与低熵状态始终保持一致,表明价值标准差是一个精确的不确定性度量。

图6:左:在步骤150时,价值标准差低的状态保持低熵(左侧箱形图组),但熵低的状态可能具有高价值标准差(右侧箱形图组)。右:熵低的状态和价值标准差低的状态显示出巨大差异。
图6:左:在步骤150时,价值标准差低的状态保持低熵(左侧箱形图组),但熵低的状态可能具有高价值标准差(右侧箱形图组)。右:熵低的状态和价值标准差低的状态显示出巨大差异。

要点 2
critics之间的一致性为状态的学习收益提供了一个可靠的衡量标准。

基于价值分歧的熵过滤。当critics对一个状态$s_j$的评估出现显著分歧,反映为高标准差时,可能表明$s_j$与推理无关。例如,由于与推理无关的token或模型生成中固有的语义模式等因素,不同的critics可能会遇到通过$s_j$的轨迹的不同奖励分布。当$λ$较大时,回报分布的离散性会反向传播到每个状态,从而放大了critics之间的分歧。在这种情况下,在$s_j$处持续探索是无意义的,因为它不对应一个可操作的决策状态(图7(a))。为了促进有意义的探索,同时避免在噪声或非决策状态上进行浪费的更新,我们引入了一个由$β$加权的安全熵正则化。具体来说,我们在计算熵$H$时,过滤掉价值标准差高的状态。完整的策略损失重写为:

公式6
公式6

图7(b)显示,与可能导致次优学习的朴素熵损失不同,我们的熵正则化缓解了熵崩溃并稳定了策略学习,避免了虚假的探索,同时引导策略向具有更高回报的更好收敛方向发展。我们还比较了基于价值标准差与基于熵的过滤方法。如图7(c)所示,这两个集合的重叠部分极小。即使在过滤掉价值标准差最高的40%状态后,策略熵仍然保持稳定,而过滤掉相同比例的高熵状态则会导致熵崩溃。对被过滤token的统计分析(附录C)证实,被移除的词通常是与决策无关的副词、感叹词。算法1展示了AsyPPO的流程。

图7:(a):当critics产生分歧时,该状态与最终结果的耦合较弱,且未来的动态复杂;应避免在这种非关键状态下进行探索。(b):从熵损失中排除价值估计标准差高的状态,可以防止由朴素熵正则化引起的策略崩溃,并带来约7个百分点的改进。设置遵循图1(b)中的配置。(c):从熵损失中排除价值标准差最高的40%状态,可以使策略熵保持在与朴素熵指导相当的水平,而过滤掉相同比例熵最高的状态则会导致熵崩溃。设置与图5一致。
图7:(a):当critics产生分歧时,该状态与最终结果的耦合较弱,且未来的动态复杂;应避免在这种非关键状态下进行探索。(b):从熵损失中排除价值估计标准差高的状态,可以防止由朴素熵正则化引起的策略崩溃,并带来约7个百分点的改进。设置遵循图1(b)中的配置。(c):从熵损失中排除价值标准差最高的40%状态,可以使策略熵保持在与朴素熵指导相当的水平,而过滤掉相同比例熵最高的状态则会导致熵崩溃。设置与图5一致。

要点 3
价值估计之间的分歧表明了探索状态的成本效益。

算法1:使用两个迷你critic的非对称PPO
算法1:使用两个迷你critic的非对称PPO

A4 实验环境

  • 数据集

    • 训练数据:使用了来自Liu等人【【27】,Part i: Tricks or traps? a deep dive into rl for llm reasoning,2025,arXiv】和Zeng等人【【55】,Simplerlzoo: Investigating and taming zero reinforcement learning for open base models in the wild,2025,arXiv】的困难训练数据集,该数据集在长尾推理任务中能清晰地揭示不同算法的性能差距。早期实验还使用了从DeepMath-103K【【12】,Deepmath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning,2025,arXiv】中采样的5000个问题。
    • 评估数据:在4个具有挑战性的基准测试上进行评估,包括MATH-500【【22】,Let’s verify step by step,2023,The Twelfth International Conference on Learning Representations】、OlympiadBench【【11】,Olympiadbench: A challenging benchmark for promoting agi with olympiad-level bilingual multimodal scientific problems,2024,arXiv】、MinervaMath【【20】,Solving quantitative reasoning problems with language models,2022,Advances in neural information processing systems】和AMC 2023【【45】,Simpletir: End-to-end reinforcement learning for multi-turn tool-integrated reasoning,2025,arXiv】。
  • 模型架构

    • Actor模型:Qwen3-4b-Base, Qwen3-8b-Base, Qwen3-14b-Base。
    • Critic模型:来自Qwen3-Base家族的不同尺寸模型,如Qwen3-0.6B-Base, Qwen3-1.7b-Base, Qwen3-4b-Base, Qwen3-8b-Base。
  • 硬件配置

    • 对于14B策略模型的训练,actor模型部署在(0,16)号GPU上,critics部署在(16,32)号GPU上。
    • 对于较小的模型,actor部署在(0,8)号GPU上,critic部署在(8,16)号GPU上。
    • (未指定具体GPU型号)
  • 软件配置

    • 代码实现:使用了一个名为ROLL的用户友好且高效的开源强化学习框架。
    • 依赖库:Python, NumPy, Matplotlib, Jupyter, Pandas。
    • 关键参数:
      • 全局批次大小:1024,最大响应长度:8192 token。
      • Actor学习率:1e-6,Critic学习率:1e-5。
      • 生成参数:top_p=0.99, top_k=100, temperature=0.99。
      • PPO epochs (UTD):4,表示离策略训练。
      • AsyPPO参数:优势掩码比例20%,熵过滤比例20%。

A5 实验结果

本节围绕三个研究问题(RQ)展开:
RQ1:AsyPPO和朴素非对称PPO能否解锁更大型LLM的通用推理能力?
RQ2:AsyPPO对critics的大小和数量有多敏感?
RQ3:对于优势掩码和熵过滤,哪些设置是有效的?

5.1 对大型模型的泛化能力

实验内容
使用Qwen3-14b-Base作为actor,测试AsyPPO与基线算法(GRPO、朴素非对称PPO)的性能。朴素非对称PPO使用单个不同大小的critic(1.7b, 4b, 8b),而AsyPPO使用两个迷你critic,并设置优势掩码和熵过滤比例为20%。

实验结果
如图8所示,使用两个4b critics的AsyPPO在所有任务中取得了最佳结果,与GRPO相比,准确率平均提高了约3个百分点。朴素非对称PPO显示出一个明显的“critic能力阈值”:单个1.7b的critic无法可靠地指导14b的actor,而升级到4b的critic则恢复了有效的学习。相比之下,AsyPPO降低了这一要求,使得两个1.7b的critics也能为14b的actor带来显著的推理增益。结合图1(c)中显示的轻量级部署特性,AsyPPO建立了一种高效实用的RL4LLM设计。

图8:与GRPO相比,AsyPPO的准确率平均提高了约3个百分点以上,并且比对称PPO轻量化超过20%。我们的朴素非对称PPO在14b策略上仍然有效,但在1.7b critic设置下失败。然而,AsyPPO解锁了1.7b critic指导14b actor的能力。
图8:与GRPO相比,AsyPPO的准确率平均提高了约3个百分点以上,并且比对称PPO轻量化超过20%。我们的朴素非对称PPO在14b策略上仍然有效,但在1.7b critic设置下失败。然而,AsyPPO解锁了1.7b critic指导14b actor的能力。

5.2 消融研究

集成critic系统

  • Critic大小:图9(a)显示,增加critic的大小能稳定提升策略的峰值分数,呈现出类似“规模定律”的趋势。建议在GPU内存允许的情况下使用最大的critic模型以最大化AsyPPO的优化能力。
  • Critic数量:图9(b)显示,使用两个迷你critic足以实现性能的质的飞跃。增加更多critic并未带来成比例的收益。
  • 组大小(Group Size):图9(c)显示,对于每个prompt的轨迹数,32是一个鲁棒的设置。
  • 价值聚合策略:图9(d)显示,使用critics估计值的均值(mean)比使用最小值(min)效果更好,表明在RL4LLM中过高估计不是主要问题。
图9:(a):增加critic的尺寸进一步增强了AsyPPO的有效性,这可以看作是参数扩大带来的边际效益。我们使用Qwen3-8b-Base初始化actor,并使用四种尺寸的Qwen3 Base模型初始化双迷你critic。(b):使用两个迷你critic可以实现性能的质的提升。(c):AsyPPO的合适组大小为32。(d):使用critic估计值的均值比使用最小值能更好地校正价值。对于(b,c,d),我们使用Qwen3-8b-Base初始化actor,并使用Qwen3-1.7b-Base初始化迷你critics。
图9:(a):增加critic的尺寸进一步增强了AsyPPO的有效性,这可以看作是参数扩大带来的边际效益。我们使用Qwen3-8b-Base初始化actor,并使用四种尺寸的Qwen3 Base模型初始化双迷你critic。(b):使用两个迷你critic可以实现性能的质的提升。(c):AsyPPO的合适组大小为32。(d):使用critic估计值的均值比使用最小值能更好地校正价值。对于(b,c,d),我们使用Qwen3-8b-Base初始化actor,并使用Qwen3-1.7b-Base初始化迷你critics。

优势掩码与熵过滤
- 基于价值收敛的优势掩码:为找到鲁棒的优势掩码百分比,实验测试了不同比例。图10(左)显示,掩盖20%的低价值标准差状态能提供最强的增益。
- 基于价值分歧的熵过滤:为找到合适的过滤百分比,实验测试了从熵损失中屏蔽10%到40%的高价值标准差状态。如图10(中、右)所示,过大的掩码会导致熵崩溃,而20%的比例在探索与利用之间达到了最佳平衡。

图10:左:在各种优势掩码设置下,六个基准测试的平均测试分数。中:在各种过滤设置下的平均测试分数。右:训练过程中的熵曲线。所有实验均基于Qwen3-8b-Base actor和Qwen3-1.7b-Base critic。准确率计算遵循图3。
图10:左:在各种优势掩码设置下,六个基准测试的平均测试分数。中:在各种过滤设置下的平均测试分数。右:训练过程中的熵曲线。所有实验均基于Qwen3-8b-Base actor和Qwen3-1.7b-Base critic。准确率计算遵循图3。

A6 结论

本文将RL4LLM中的critic瓶颈问题重新定义为一个架构问题,而非纯粹的算法或优化问题。我们提出的非对称近端策略优化(AsyPPO)通过使用在不相交的提示级数据上训练的两个轻量级迷你critic,恢复了critic的作用,从而产生了多样化且校准良好的价值估计。除了鲁棒地改进价值估计,我们还证明了critic间的不确定性为策略优化提供了可操作的信号:为低信息量状态掩盖优势值,以及从熵正则化中过滤高分歧状态,这两者都减少了过拟合,并促进了更安全、更有效的探索。在标准的LLM推理基准测试中,AsyPPO持续改进了不同规模模型的通用推理能力,从经验上支持了非对称actor-critic设计作为RL4LLM一个可行且高效的方向。AsyPPO减轻了critic的过参数化问题,同时提高了PPO的样本效率和计算效率。

局限性:为确保在有限GPU资源下的公平性和可靠性,所有实验均从广泛使用的Qwen3系列初始化actor和critic模型。在其他模型家族(如Llama)上的评估留待未来工作。遵循现有研究,我们将最大生成长度固定为8k token,这是一个平衡了推理覆盖范围和避免推理成本激增的常见学术设置。我们计划评估该算法在超长推理预算下的泛化能力,并采用经典RL实践,使用更多样化的随机种子来进一步加强我们结论的鲁棒性。

未来工作:AsyPPO为RL4LLM设计开辟了新途径,并提出了一些有趣的问题。例如,由不同模型家族和尺寸组成的集成critic系统是否表现出性能差异?critic超参数设置的变化是否会影响校准和不确定性估计?有前景的方向还包括使用置信度加权的集成critics来改进价值估计,以及分析价值不确定性与熵之间的关系。

A6 附录

A.1 绘图设置

绘图设置。为确保定性分析的清晰和直观,所有曲线均使用相同的参数进行一致平滑。具体来说,均值是使用一个11步的移动窗口和0.6的指数平滑因子计算的。平滑窗口设置为4和2。

A.2 提示词

提示词设置。在本作中,我们将以下指令整合到系统提示中,以鼓励模型更好地展示其推理过程:“请一步一步地推理,并将你的最终答案放在\boxed{}内。”此设置旨在引导模型进行分步推理,并以\boxed{}的形式明确呈现最终答案,从而提高输出的清晰度和可读性。

A.3 超参数

超参数设置。我们采用ROLL,一个用户友好且高效的开源强化学习框架来实现我们的流程。随后,训练过程中观察到的关键参数如下所示。更多参数细节请参阅我们的代码配置文件。对于14b策略的训练,我们统一将actors安排在(0,16)号GPU上,critics安排在(16,32)号GPU上。对于其他小型模型,我们统一将actor放置在(0,8)号GPU上,critic放置在(8,16)号GPU上。详细设置见下页。

我们为4b和8b策略使用以下设置

seed: 42
max_steps: 500
save_steps: 500
logging_steps: 1
eval_steps: 1
gamma: 1.0 # 折扣因子
lambd: 1.0 # GAE lambda
rollout_batch_size: 64
prompt_length: 1024
response_length: 8000
value_aggregation_strategy: "mean"
gradient_mask_percentage: 0.2 # 掩码20%
entropy_loss_coef: 0.01
entropy_filter_mask_percentage: 0.2 # 过滤掉20%
ppo_epochs: 1 # 在主要实验中也使用了4
adv_estimator: "gae"
init_kl_coef: 0.0
async_generate_level: 1
actor_train:
  training_args:
    learning_rate: 1.0e-6
    weight_decay: 0
    per_device_train_batch_size: 1
    gradient_accumulation_steps: 256
    warmup_steps: 50
    num_train_epochs: 50
critic_1:
  training_args:
    learning_rate: 1.0e-5
    weight_decay: 1.0e-2
    warmup_steps: 5
    per_device_train_batch_size: 1
    gradient_accumulation_steps: 128
    warmup_steps: 5
    num_train_epochs: 50
critic_2:
  training_args:
    learning_rate: 1.0e-5
    weight_decay: 1.0e-2
    warmup_steps: 5
    per_device_train_batch_size: 1
    gradient_accumulation_steps: 128
    warmup_steps: 5
    num_train_epochs: 50
# ...
actor_infer:
  generating_args:
    max_new_tokens: ${response_length}
    top_p: 0.99
    top_k: 100
    num_beams: 1
    temperature: 0.99
    num_return_sequences: 32

我们为14b策略使用以下设置

seed: 42
max_steps: 500
save_steps: 500
logging_steps: 1
eval_steps: 1
value_aggregation_strategy: "mean"
gradient_mask_percentage: 0.2 # 掩码20%
entropy_loss_coef: 0.01
entropy_filter_mask_percentage: 0.2 # 过滤掉20%或0%
rollout_batch_size: 64
prompt_length: 1024
response_length: 8000
infer_batch_size: 4
ppo_epochs: 4
adv_estimator: "gae"
init_kl_coef: 0.0
async_generate_level: 1
actor_train:
  training_args:
    learning_rate: 1.0e-6
    weight_decay: 0
    per_device_train_batch_size: 8
    gradient_accumulation_steps: 64
    warmup_steps: 50
    num_train_epochs: 50
critic_1:
  training_args:
    learning_rate: 1.0e-5
    weight_decay: 1.0e-2
    warmup_steps: 5
    per_device_train_batch_size: 2
    gradient_accumulation_steps: 16
    warmup_steps: 5
    infer_batch_size: 4
    num_train_epochs: 50
critic_2:
  training_args:
    learning_rate: 1.0e-5
    weight_decay: 1.0e-2
    warmup_steps: 5
    per_device_train_batch_size: 2
    gradient_accumulation_steps: 16
    warmup_steps: 5
    infer_batch_size: 4
    num_train_epochs: 50
# ...
actor_infer:
  generating_args:
    max_new_tokens: ${response_length}
    top_p: 0.99
    top_k: 100
    num_beams: 1
    temperature: 0.99
    num_return_sequences: 32

B 价值标准差与状态信息量之间的关系

实验设置与结果。具体来说,在8b actor和两个0.6b critic的训练场景中,我们使用对应于全局状态的价值标准差(value-std)和梯度幅度的中位数,将状态分为四类。即:大梯度&大价值标准差,大梯度&小价值标准差,小梯度&大价值标准差,小梯度&小价值标准差。图11(左)的结果显示,绝大多数状态被分类到大梯度&大价值标准差和小梯度&小价值标准差这两类中,从而经验性地证明了价值标准差与状态的学习价值(信息量)之间存在正相关关系。

图11:左:训练中期一个mini-batch内的统计数据。右:在同一个mini-batch中被最频繁掩码的40个token。
图11:左:训练中期一个mini-batch内的统计数据。右:在同一个mini-batch中被最频繁掩码的40个token。

C 词云可视化

高频被掩码词分析。我们统计分析了AsyPPO训练初期被掩码频率最高的token的词云。图11(右)的结果显示,我们的掩码机制倾向于掩盖形容词、副词和一些孤立的符号,较少涉及逻辑转换词,除了稍微突出的递进词“therefore”。