A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems

发表时间: 2025-04 · arXiv:2504.09037 (Salesforce AI Research)

原文: https://arxiv.org/abs/2504.09037

作者/机构: Zixuan Ke⋆, Fangkai Jiao⋄,‡, Yifei Ming⋆, Xuan-Phi Nguyen⋆, Austin Xu⋆, Do Xuan Long†,‡, Minzhi Li†,‡, Chengwei Qin♣, Peifeng Wang⋆, Silvio Savarese⋆, Caiming Xiong⋆, Shafiq Joty⋆,⋄
⋆Salesforce AI Research †新加坡国立大学 ⋄南洋理工大学 ♣香港科技大学(广州) ‡新加坡科技研究局(A*STAR)I2R研究所

A1 主要贡献

本文旨在对大型语言模型(LLM)推理领域的前沿研究进行全面综述,核心贡献在于提出了一个全新的、系统的研究分类框架,并梳理了该领域的关键趋势与挑战。

核心问题与研究目标:推理是高级人工智能的核心能力,但对于自回归的LLM来说,实现超越逐词生成的、多步骤的复杂推理是一个巨大挑战。现有研究表明,单纯扩大预训练规模并非提升推理能力的最优解。因此,研究界正积极探索更有效的方法。本文的目标是系统性地梳理和组织这些方法,为研究人员和从业者提供一个清晰的路线图,以推动LLM推理能力的发展。

核心创新点(分类框架):本文提出从两个正交的维度来组织现有的LLM推理研究:
1. 范式(Regime):指推理能力是在哪个阶段实现的。
* 推理时扩展(Inference Scaling):在测试时通过增加计算量(如搜索、多路径采样)来提升推理质量,而不改变模型参数。OpenAI的o1模型是这一方向的代表。
* 学习推理(Learning to Reason):通过专门的训练(如监督微调、强化学习)来直接增强模型的内在推理能力,以减少推理时的计算开销。DeepSeek-R1是这一方向的里程碑。

  1. 架构(Architecture):指参与推理过程的组件。
    • 独立LLM(Standalone LLM):推理过程仅在单个LLM内部完成。
    • 智能体系统(Agentic System):将LLM作为智能体,通过与外部工具、知识库或其他智能体交互来完成推理。这又可分为单智能体和多智能体系统。

统一视角:为了统一分析不同范式和架构下的技术,本文进一步提出了从输入(Input)输出(Output)两个层面进行考察。

这一分类框架(如下图2所示)不仅系统地组织了现有研究,还揭示了领域内的重要趋势:一是从推理时扩展向学习推理的转变,二是从独立LLM向智能体系统的演进。


图2:本综述提出的关于范式、架构和统一视角的分类体系。

研究现状与趋势:自2022年思维链(CoT)技术问世以来,LLM推理领域的研究呈现爆炸式增长(如下图1所示)。本文详细回顾了这一时期的关键算法和里程碑事件,包括从监督微调到强化学习(如PPO、GRPO)的各种学习算法,以及推理器和验证器的训练方法。同时,本文也探讨了智能体工作流的关键设计模式,如“生成器-评估器”和“LLM辩论”等。


图1:LLM推理研究的激增。图中显示了从2022年到2025年2月期间,基于Semantic Scholar关键词搜索发表的论文累计数量(千篇)。自2022年思维链(CoT)引入以来,关于推理范式和智能体架构的研究显著加速。

论文结构:本文的结构如下图3所示,首先介绍背景知识(第2节),然后分别深入探讨推理时扩展(第3节)、推理器与验证器的学习算法(第4节)以及学习推理(第5节)。最后,总结关键见解并讨论开放性挑战与未来方向(第6节)。


图3:本综述中LLM推理研究的分类结构,按范式(推理时扩展、学习推理)和架构(独立LLM、单智能体、多智能体)组织。每个叶节点包含了专注于相应类别的文献示例。

A3 背景知识

本节介绍贯穿全文的基础概念。

2.1 问题形式化

基本定义。LLM推理通常在马尔可夫决策过程(MDP)框架【Bellman, 1958, Dynamic programming and stochastic control processes, 1958, Information and Control】内被形式化,视为一个序贯决策过程。推理步骤和思想的定义取决于具体的推理或学习算法。通常,一个推理步骤可以表示为一系列词元(token)$a_t = (x_{t1}, ..., x_{tK})$,它代表一个连贯的推理环节,如一个逻辑推导。在极端情况下,一个推理步骤可以是整个响应或单个词元。而“思想”(Thought)通常指从问题到最终答案之间的推理步骤序列(即推理轨迹)。

推理即马尔可夫决策过程(MDP)。MDP是为环境建模的通用框架,其中智能体通过观察状态并为其行动获得奖励来进行序贯决策。MDP中的状态-行动-奖励轨迹可表示为 $\tau = \{(s_0, a_0, r_0), ..., (s_T, a_T, r_T)\}$。LLM推理可以自然地被构建为一个MDP,因为每个推理步骤都建立在前一步的基础上。一个关键区别在于状态转移函数 $P(s_{t+1}|s_t, a_t)$ 的定义:在独立LLM中,模型自身生成下一个状态;而在智能体系统中,状态转移可能受环境中外部工具的影响。

优化目标。在基于强化学习(RL)的方法中,目标是通过优化推理策略 $\pi$ 来最大化累积奖励的期望值:

其中 $r_t = R(s_t, a_t)$ 是奖励函数在时间步 $t$ 给予的奖励。优化此方程主要有两种途径:一是通过训练,更新模型参数以学习最优策略 $\pi$;二是通过推理时扩展,在不改变模型参数的情况下,使用固定模型进行“搜索”来优化。关键术语总结见下表1。

表1:为方便起见,对符号和术语的概述。

2.2 LLM推理系统的关键组件

一个LLM推理系统可能包含三个关键组件,具体取决于其推理范式和系统架构:(a) 推理器(Reasoner),生成推理步骤,作为策略模型;(b) 验证器(Verifier),评估最终结果和/或推理步骤的正确性,作为奖励函数;(c) 精炼器(Refiner),根据验证器的反馈改进推理轨迹。这三个组件可以由同一个LLM实现,例如自精炼(self-refinement)。

推理器。推理器是系统的核心,它根据当前状态生成下一步的响应或行动,决定了推理的进程和最终结果。

验证器。验证器评估最终答案或中间步骤的质量,并提供反馈。验证器可以是结果层面(outcome-level)的,只评估最终结果;也可以是过程层面(process-level)的,评估中间推理步骤。反馈形式多样,从标量奖励到自然语言解释。

精炼器。精炼器接收来自验证器的反馈和推理器的响应,尝试改进和修正原始推理轨迹中的缺陷。它既可以在推理时提升性能,也可以通过指出当前轨迹的障碍来隐式地进行搜索,从而压缩搜索空间。


图4:推理系统的三个关键组件。推理器为查询提出新的响应。验证器根据验证指令和推理器的响应输出判断(分数或排序)。精炼器接收不正确的响应和可选的批判,输出修正后的响应。

2.3 系统架构

本节描述上述三个组件如何在不同系统架构中组织以实现有效推理。本文将推理系统分为三种主要类型:独立LLM、单智能体系统和多智能体系统。


图5:用于设计LLM推理系统的三种架构类型。高亮部分指出了文献中强调需要定制的视角。

2.3.1 独立LLM系统

定义。独立LLM系统由单个LLM构成,该LLM可以扮演推理系统中一个或多个组件的角色。它处理输入提示并生成最终输出,通常包含推理步骤。该系统独立运作,不与外部环境或其它LLM交互,其决策完全基于输入输出映射或通过迭代采样自身(自包含推理)。

2.3.2 从独立LLM到语言智能体

智能体的核心能力。语言智能体与独立LLM的关键区别在于两个高级能力:交互性(interactiveness)自主性(autonomy)。交互性指智能体与外部世界(环境或其他智能体)互动的能力,这使其能够利用外部信息增强内部知识。自主性指智能体不仅能遵循人类指令,还能独立发起和执行行动,例如规划、主动发现新情况和决定互动策略。

智能体与环境的界定。本文使用可控性(controllability)【Sumers et al., 2024, Cognitive architectures for language agents, 2024, https://arxiv.org/abs/2309.02427】来界定智能体与其环境的边界。环境是智能体无法修改的外部模块,如知识库、编译器或其他作为评判者的LLM。而智能体可以直接修改的工作记忆或提示词则不属于环境。本文将智能体性(agenticness)视为一个谱系,交互性和自主性越强,模型的智能体性就越强 。

2.3.3 单智能体系统

定义与设计焦点。单智能体系统关注智能体与环境的交互。其设计焦点在于智能体的行动(actions)(如工具使用、检索、答案精炼)和从环境中获取有用的感知(perceptions)(如来自外部验证器或知识库的反馈)。尽管完全自主的智能体应能自动学习交互,但文献中已确定了几种有效的预定义交互模式(或称工作流):

2.3.4 多智能体系统

定义与设计焦点。多智能体系统在单智能体的“智能体-环境”循环之外,引入了“智能体-智能体”循环。多个智能体扮演不同角色,通过交换信息来协调行动。其设计焦点在于有效的通信协议(communication protocols)行动协调(coordinating actions)。以下是一些有效的预定义通信模式:

2.4 推理范式

与系统架构正交,推理系统可以在不同的计算范式下运行。下图6对比了推理时扩展和学习推理两种范式。


图6:推理系统的推理时和训练时范式。我们使用树搜索作为例子来说明推理时扩展和轨迹收集。对于一个查询,推理时扩展依赖大量的推理计算来改进推理器分布。相比之下,学习推理侧重于收集轨迹并从收集的数据中训练,推理时计算量最小。

2.4.1 推理时扩展(Inference Scaling)

核心思想。该范式在测试时通过增加计算量来增强推理能力,而不更新模型参数。主要策略包括:(a) 提示词工程与优化,构建有效的激发推理的提示;(b) 搜索与规划方法,如任务分解、计划生成与验证、基于探索的方法等,系统性地探索解决方案;(c) 系统级增强,集成外部工具、知识源和验证机制。尽管有效,但通常会增加推理时的计算成本。

2.4.2 学习推理(Learning to Reason)

核心思想。该范式侧重于在部署前通过训练使模型有效推理。其核心是模拟推理过程,生成捕捉潜在推理路径的轨迹,然后使用在线或离线学习方法(如监督学习、强化学习)在这些轨迹上训练推理器。这种方法通常在推理时计算成本较低,但在模拟和训练阶段成本较高。近期,该范式已发展到整合训练和测试方法的知识,以实现自适应策略,例如训练为已知推理技术优化的推理器,或在训练和测试之间动态分配计算成本。

A2 方法细节

3 用推理时扩展提升推理能力

尽管扩大模型参数能提升推理性能,但其回报因高昂的训练成本而递减。因此,推理时扩展(Inference Scaling)成为一种有吸引力的正交范式,通过在测试时提供额外的计算,让模型在给出最终答案前“思考”。研究表明,优化测试时计算的扩展比扩展模型参数更有效【Snell et al., 2024, Scaling LLM test-time compute optimally can be more effective than scaling model parameters, 2024, https://doi.org/10.48550/arXiv.2408.03314】。本节关注在推理时通过显式编程实现的“刻意思考” 。

3.1 独立LLM的推理时扩展

本节检视使推理时方法有效的核心组件与技术,其中许多灵感来源于人类认知过程中关于规划、问题解决和决策的研究。

3.1.1 构建激发推理的提示词

深度推理行为的激发。大规模预训练赋予了LLM支持推理的模式,但这些能力在通用提示下通常是潜在的。研究【Liu et al., 2025c, There may not be aha moment in r1-zero-like training — a pilot study, 2025, https://oatllm.notion.site/oat-zero】表明,仅通过增加采样预算就能放大深度推理行为(如反思和自验证),这凸显了设计能刻意激发推理的提示词的重要性 。

指令工程(Instruction engineering)。LLM的推理效果在很大程度上取决于所提供指令的质量。早期的研究主要集中于基于模板和人工策划的指令。随着LLM能力的增强,研究焦点转向利用模型自身来制作和优化高质量指令。一个代表性工作是Zhou等人【Zhou et al., 2023b, Large language models are human-level prompt engineers, 2023, https://openreview.net/forum?id=92gvk82DE-】提出的自动提示工程师(APE),它使用LLM生成高质量指令,其性能可与人类标注员媲美。此外,一些方法通过修改指令来提升推理,例如Rephrase-and-Response 【Deng et al., 2023a, Rephrase and respond: Let large language models ask better questions for themselves, 2023, https://arxiv.org/abs/2311.04205】和EchoPrompt 【Mekala et al., 2024, EchoPrompt: Instructing the model to rephrase queries for improved in-context learning, 2024, https://doi.org/10.18653/v1/2024.naacl-short.35】指示LLM在回答前先复述问题 。R3 prompting【Tian et al., 2023, R3 prompting: Review, rephrase and resolve for chain-of-thought reasoning in large language models under noisy context, 2023, https://doi.org/10.18653/v1/2023.findings-emnlp.114】则让LLM先从嘈杂的上下文中提取关键句子,然后将这些句子显式地包含在重述的指令中 。

示例工程(Demonstration engineering)。受人类通过类比解决新问题能力的启发,Yasunaga等人【Yasunaga et al., 2024, Large language models as analogical reasoners, 2024, https://openreview.net/forum?id=AgDICX1h50】提出类比提示 (analogical prompting),引导LLM自生成与给定问题相关的范例或知识作为少样本(few-shot)示例,其效果优于手工制作或检索的示例。Qin等人【Qin et al., 2025, Relevant or random: Can llms truly perform analogical reasoning?, 2025, https://arxiv.org/abs/2404.12728】的系统评估发现,性能并非主要由范例与任务的主题相关性决定,而是由范例的质量(正确性、清晰度和结构对推理的有用性)决定 。

动态示例选择。传统的固定少样本示例对于变化显著的查询可能不是最优的。一种替代方法是为当前查询检索定制化的示例。研究表明,基于检索的示例选择能显著提升任务性能。选择示例的主要目标是相似性多样性。各种检索策略已被提出,包括基于top-k相似度的检索、基于聚类的检索和迭代检索。

多样本上下文学习(Many-shot ICL)。作为示例工程的补充,多样本ICL提供成百上千个示例来显著增强LLM的性能,尤其是在复杂推理任务上。然而,其有效性常受限于获取大量标注示例的高昂成本。为解决此问题,Chen等人【Chen et al., 2025, Maple: Many-shot adaptive pseudo-labeling for in-context learning, 2025, https://arxiv.org/abs/2505.16225】最近引入了MAPLE,一个基于影响力的多样本ICL框架,它识别有影响力的未标注样本,通过查询LLM为其生成伪标签,并为每个测试查询自适应地选择它们 。

提示词优化(Prompt optimization)。为了系统性地优化提示词,研究者探索了多种方法。例如,GPS【Xu et al., 2022, GPS: Genetic prompt search for efficient few-shot learning, 2022, https://doi.org/10.18653/v1/2022.emnlp-main.559】利用遗传算法搜索最佳指令。其他工作则采用进化算法、受GAN启发的minimax游戏框架,或利用“文本梯度” 【Pryzant et al., 2023, Automatic prompt optimization with “gradient descent” and beam search, 2023, https://doi.org/10.18653/v1/2023.emnlp-main.494】和执行反馈(如OPRO 【Yang et al., 2024c, Large language models as optimizers, 2024, https://openreview.net/forum?id=Bb4VGOWELI】)来更新提示词。最近,Wan等人 【Wan et al., 2024a, Teach better or show smarter? on instructions and exemplars in automatic prompt optimization, 2024, https://openreview.net/forum?id=IdtoJVWVnX】的全面评估发现,智能地重用提示评估中的样本作为示例能持续提升性能,并且示例选择策略的影响可能大于指令优化技术 。

表2:独立LLM的推理时扩展总结。

3.1.2 通过搜索和规划优化推理输出

生成推理子任务。将复杂问题分解为中间步骤是提升LLM推理能力的成功范式。Nye等人【Nye et al., 2021, Show your work: Scratchpads for intermediate computation with language models, 2021, https://arxiv.org/abs/2112.00114】和Wei等人 【Wei et al., 2022b, Chain-of-thought prompting elicits reasoning in large language models, 2022, Advances in neural information processing systems】开创性地提出了思维链(CoT)提示,通过包含人工编写中间步骤的少样本示例来引导模型。Kojima等人【Kojima et al., 2022, Large language models are zero-shot reasoners, 2022, Advances in neural information processing systems】进一步简化了此方法,提出了零样本CoT,通过指示模型“一步一步思考”来省去示例。

任务分解与结构化推理。当任务复杂度增加时,简单的CoT提示会遇到困难。为解决此问题,研究者提出了显式引导模型分解任务的方法。例如,Dua等人【Dua et al., 2022, Successive prompting for decomposing complex questions, 2022, https://doi.org/10.18653/v1/2022.emnlp-main.81】提出迭代方法,逐步将任务分解为更简单的子任务。Zhou等人 【Zhou et al., 2023a, Least-to-most prompting enables complex reasoning in large language models, 2023, https://openreview.net/forum?id=WZH7099tgfM】等人则提倡“分而治之”策略。除了子任务,研究者还强调了推理结构的重要性,如Self-Discover 【Zhou et al., 2024b, SELF-DISCOVER: Large language models self-compose reasoning structures, 2024, https://openreview.net/forum?id=BROvXhmzYK】框架让模型能自我识别任务的推理结构。此外,一些研究关注修正中间步骤,特别是对于小模型(≤13B),它们需要更强的模型作为验证器来校正中间步骤 【Zhang et al., 2024i, Small language models need strong verifiers to self-correct reasoning, 2024, https://doi.org/10.18653/v1/2024.findings-acl.924】 。

探索与搜索。复杂推理任务通常允许多条有效路径达到正确解。与线性推理结构(如CoT)相比,包含探索的非线性方法在复杂推理任务中显示出显著优势。这些方法通常包括分支(branching)聚合(aggregation)两个关键部分。分支通常通过带有非零温度的独立重采样实现,生成多样的推理链。早期方法如自洽性(self-consistency)【Wang et al., 2023f, Self-consistency improves chain of thought reasoning in language models, 2023, https://openreview.net/forum?id=1PL1NIMMrw】只在推理链开始时分支,缺乏对中间步骤的局部探索。近期的进展,如思维树(Tree-of-Thoughts) 【Yao et al., 2023a, Tree of thoughts: Deliberate problem solving with large language models, 2023, https://openreview.net/forum?id=5Xc1ecxO1h】、思维图(Graph-of-Thoughts) 【Besta et al., 2024, Graph of thoughts: Solving elaborate problems with large language models, 2024, Proceedings of the AAAI Conference on Artificial Intelligence】和思维森林(Forest-of-Thoughts)【Bi et al., 2024, Forest-of-thought: Scaling test-time compute for enhancing llm reasoning, 2024, https://arxiv.org/pdf/2412.09078】实现了更细粒度的分支,允许更灵活的探索 。

聚合策略。分支推理路径的有效性取决于聚合或评估策略。目前主要有两类:基于集成的方法基于验证器的方法。集成方法因其简单和自包含性而被广泛使用,如对答案词元进行多数投票或基于置信度的选择。基于验证器的方法则使用外部验证器或评判者对候选解进行评分和选择。

3.2 单智能体系统的推理时扩展

核心思想。LLM在静态、有限的数据集上训练,这限制了其参数化知识。智能体系统通过增强LLM与外部验证器、检索和工具的集成,有效解决了在需要最新或高度专业化知识场景下的推理问题。

代表性框架。ReAct框架【Yao et al., 2023b, ReAct: Synergizing reasoning and acting in language models, 2023, International Conference on Learning Representations (ICLR)】开创性地将推理和行动交织进行,使模型能够引导、跟踪和更新行动计划,同时与外部环境交互以收集信息。在其基础上,LATS【Zhou et al., 2024a, Language agent tree search unifies reasoning, acting, and planning in language models, 2024, Proceedings of the 41st International Conference on Machine Learning】将推理、行动和规划统一在LLM中,结合蒙特卡洛树搜索(MCTS)在推理和行动路径的组合空间上进行结构化搜索。最近,RAFA【Liu et al., 2024f, Reason for future, act for now: A principled architecture for autonomous LLM agents, 2024, Proceedings of the 41st International Conference on Machine Learning】在贝叶斯自适应MDP下形式化了LLM的推理和行动。

3.2.1 使用验证器和反思进行精炼

验证器的作用。在测试时,由于通常无法获得真实标签,智能体依赖验证器来近似衡量其输出的正确性,并指导行动修正。一种特殊情况是预言机验证器(oracle verifiers),它们能访问真实答案,并已证明能显著提升性能,但适用范围有限。

非预言机验证器。更通用的解决方案是非预言机(或不完美)验证器。其形式多样,例如:
* 结果奖励模型(ORMs):训练用于对响应进行重排序的奖励模型。
* 过程奖励模型(PRMs):对每个推理步骤单独评估,通常比ORMs带来更大的推理时改进【Uesato et al., 2022, Solving math word problems with process-and outcome-based feedback, 2022, https://arxiv.org/abs/2211.14275】 。
* 生成式验证器:也称为批判模型(critique models)LLM即评判者(LLM-as-judge)模型。它们能生成自然语言反馈,不仅用于重排序,还能提供有价值的指导。然而,研究发现它们在验证准确性上通常不如奖励模型。为结合两者优势,生成式奖励模型(Generative RM)框架被提出。

自反思/自精炼。自反思或自精炼方法【Saunders et al., 2022, Self-critiquing models for assisting human evaluators, 2022, https://arxiv.org/abs/2206.05802】旨在让智能体自我批判和修正输出,从而省去额外的验证器模型。虽然一些研究取得了成功,但其他研究指出,在缺乏强大验证器的情况下,其性能不佳 。

表3:单智能体系统的推理时扩展总结。

3.2.2 通过检索和工具使用进行增强

检索增强。在推理过程中,智能体可以检索外部知识来精炼其内部状态表示,从而得到更准确的推理步骤。这在需要多跳和长程推理的知识密集型任务中尤为重要。例如,Verify-and-Edit【Zhao et al., 2023, Verify-and-edit: A knowledgeenhanced chain-of-thought framework, 2023, https://arxiv.org/abs/2305.03268】和Chain-of-Knowledge 【Li et al., 2024e, Chain-of-knowledge: Grounding large language models via dynamic knowledge adapting over heterogeneous sources, 2024, https://arxiv.org/abs/2305.13269】等框架动态地结合结构化和非结构化知识源来修正推理链。SelfRewardRAG 【Hammane et al., 2024, Selfrewardrag: Enhancing medical reasoning with retrieval-augmented generation and self-evaluation in large language models, 2024, 2024 International Conference on Intelligent Systems and Computer Vision (ISCV)】则结合RAG和自评估来增强医学推理。

工具使用。除了搜索和检索,智能体还可以利用其他专业工具来克服其固有限制。通过集成计算器、编译器、日历或专业API,智能体可以访问特定领域的资源,从而在目标应用中更有效地运作。例如,SCIAGENT【Ma et al., 2024b, Sciagent: Tool-augmented language models for scientific reasoning, 2024, https://arxiv.org/abs/2402.11451】利用SymPy和WolframAlpha等工具增强科学领域的推理能力。MATHSENSEI 【Das et al., 2024, Mathsensei: A tool-augmented large language model for mathematical reasoning, 2024, https://arxiv.org/abs/2402.17231】则使用Python、WolframAlpha和Bing搜索来解决数学推理任务 。

模型上下文协议(MCP)。Anthropic引入了MCP开放标准,旨在无缝连接AI助手与真实世界的数据源。虽然前景广阔,但其实施也带来了挑战,如缺乏中心化安全监督、身份验证和授权方面的差距等【Hou et al., 2025, Model context protocol (mcp): Landscape, security threats, and future research directions, 2025, https://arxiv.org/abs/2503.23278】 。

3.3 多智能体系统的推理时扩展

核心思想。通过策略性地设计通信模式和协调行动,多智能体系统可以利用多个智能体的专业能力实现更复杂的推理。

3.3.1 设计通信模式

辩论与讨论。一种常见的通信模式是让多个智能体参与辩论或讨论。例如,RECONCILE框架【Chen et al., 2023c, Reconcile: Round-table conference improves reasoning via consensus among diverse llms, 2023, https://arxiv.org/abs/2309.13007】要求每个智能体生成带解释和置信度分数的答案,然后进行多轮讨论以精炼响应,并使用置信度加权投票机制聚合成共识。GroupDebate 【Liu et al., 2024e, Groupdebate: Enhancing the efficiency of multi-agent debate using group discussion, 2024, https://arxiv.org/abs/2409.14051】则将智能体分组进行内部辩论,然后再分享结果,以降低通信成本 。

中心化通信。除了去中心化通信,一些工作考虑将信息发送到一个中心节点进行决策。例如,Suzgun和Kalai【Suzgun & Kalai, 2024b, Meta-prompting: Enhancing language models with task-agnostic scaffolding, 2024, https://arxiv.org/abs/2401.12954】使用一个语言模型作为多面指挥家来处理和整合各种查询。AgentCoord 【Pan et al., 2024a, Agentcoord: Visually exploring coordination strategy for llm-based multi-agent collaboration, 2024, https://arxiv.org/abs/2404.11943】则指定一个LLM作为中心规划者,负责协调策略生成和智能体分配 。

表4:多智能体系统的推理时扩展总结。

3.3.2 协调行动

链式协调。一种直接的协调策略是链式连接智能体,其中一个智能体可以基于其他智能体的输出进行推理。例如,Mixture-of-Agents (MoA)【Wang et al., 2024c, Mixture-of-agents enhances large language model capabilities, 2024, https://arxiv.org/abs/2406.04692】利用LLM的协作性,通过整合多个智能体的贡献生成更高质量的响应 。MetaReasoning Prompting (MRP)【Gao et al., 2024b, Meta reasoning for large language models, 2024, https://arxiv.org/abs/2406.11698】则让每个智能体动态地从一个推理池中为特定任务选择最有效的方法 。

动态适应。行动协调还可以包含对任务需求的动态适应。例如,Magentic-One【Fourney et al., 2024, Magentic-one: A generalist multi-agent system for solving complex tasks, 2024, https://arxiv.org/abs/2411.04468】引入一个领导智能体作为Orchestrator,根据不同任务进行动态规划。EVOAGENT 【Yuan et al., 2024c, Evoagent: Towards automatic multi-agent generation via evolutionary algorithms, 2024, https://arxiv.org/abs/2406.14228】则动态生成适用于给定任务的各种智能体,并选择那些输出质量高的来生成最终结果 。

4 学习算法

在深入探讨训练推理模型的方法论之前,本节首先描述用于训练推理器策略和验证器的基础学习算法。

4.1 推理器的学习

本节分为三部分:通过监督微调的模仿学习、强化学习和偏好学习。

4.1.1 模仿学习 - 监督微调(SFT)

核心思想。监督微调(SFT)通过最大化给定输入提示 $x$ 和先前生成的词元 $y_{<i}$ 的条件下,下一个词元 $y_i$ 的对数概率来训练策略模型 $\pi_\theta$。损失函数如下:</p>

其中 $D$ 是SFT数据集,包含输入 $x$ 和真实标签 $y$。SFT通常是训练基础LLM在零样本设置下生成推理链的第一步(或唯一步骤),也常用于知识蒸馏,即训练小模型模仿大模型的输出。

4.1.2 用于推理的强化学习

马尔可夫决策过程(MDP)。大多数RL方法将文本生成建模为MDP。为了在自回归语言建模中应用RL,需要定义状态和行动,使其既满足语言建模的时间依赖约束,又满足马尔可夫性质。一个常见的方法是定义当前状态 $s_t$ 包含所有先前词元,从而使下一个状态 $s_{t+1}$ 仅依赖于当前状态 $s_t$ 和所选行动 $a_t$。根据行动的定义,可以分为以下几类:

表5:不同训练方案下MDP状态和行动的定义。

近端策略优化(PPO)。PPO是应用最广泛的RL算法之一。它使用一个参考模型 $\pi_{\theta_{ref}}$ 和一个价值模型 $V$。PPO首先采样轨迹,然后计算每个行动的优势(Advantage) $A(s_t, a_t)$:

其中 $Q(s_t, a_t)$ 是状态-行动价值函数,$V(s_t)$ 是状态价值函数。然后PPO根据以下裁剪(clipped)的损失函数优化策略 $\pi_\theta$:

裁剪函数确保策略不会与先前版本偏离过大。

REINFORCE & RLOO。REINFORCE是另一种流行的策略梯度方法,它优化整个响应的奖励加权目标:

其中 $R(y, x)$ 是最终奖励,$b$ 是用于减小方差的基线项。最近提出的REINFORCE Leave-One-Out (RLOO)【Ahmadian et al., 2024, Back to basics: Revisiting reinforce style optimization for learning from human feedback in llms, 2024, https://arxiv.org/abs/2402.14740】用蒙特卡洛(MC)采样轨迹奖励的留一法平均值替换了传统基线计算 :

组相对策略优化(GRPO)。该算法通过DeepSeek-R1而普及。它使用与PPO相同的裁剪代理目标,但其优势 $A(s_t, a_t)$ 的计算方式不同。它对给定输入 $x$ 采样一组输出 $G = [o_1, ..., o_g]$,计算相应奖励 $R = [r_1, ..., r_g]$,然后将每个输出 $o_i$ 的优势定义为组归一化奖励:

然后,算法通过最小化以下损失函数来优化策略 $\pi_\theta$:

4.1.3 偏好学习

核心思想。偏好学习,特别是从人类反馈中学习(RLHF),是LLM后预训练对齐阶段的常用方法。它旨在鼓励生成符合人类偏好(如有用性、无害性)的响应。数据收集过程通常是让人类标注员在成对的响应中选择更优的一个,然后用这些偏好数据训练一个奖励模型,该模型在PPO训练期间提供在线奖励分数。

直接偏好优化(DPO)。DPO【Rafailov et al., 2023, Direct preference optimization: Your language model is secretly a reward model, 2023, http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html】及其变体是偏好学习的演进。DPO提出使用策略语言模型本身直接从偏好数据集中建模人类奖励偏好,从而无需训练单独的奖励模型。策 略 $\pi_\theta$ 通过最小化一个简单的二元分类损失来优化:

其中 $y_w$ 和 $y_l$ 分别是获胜(选择的)和失败(拒绝的)输出。DPO因其简单和稳定性而受到欢迎,但也有其局限性,如对长响应的偏见。后续的进展如KTO, iPO, SimPO, ORPO等解决了其中许多问题。

42. 验证器和奖励模型的学习

验证器在推理系统中扮演重要角色。在推理设置中,奖励模型专注于验证推理链的正确性。根据标签粒度,奖励建模可分为结果奖励建模和过程奖励建模。

4.2.1 结果奖励模型(ORM)

目标与训练。ORM的目标是为完整的轨迹提供一个标量奖励。给定一个包含输入提示 $x$、采样输出 $y$ 及其对应正确性标签 $c \in \{0, 1\}$ 的数据集,ORM $r_\theta$ 通过以下损失函数进行训练:

或者,可以使用成对的形式进行训练。将多个采样输出分为正确和不正确两类,形成输出对 $\{y_w, y_l\}$,然后使用Bradley-Terry损失进行训练,类似于DPO:

4.2.2 过程奖励模型(PRM)

目标与训练。为了避免结果驱动的验证可能鼓励不正确的推理链,PRM旨在评估解决方案中每一步的正确性。这需要更细粒度的标签。假设输出 $y = (a_1, ..., a_T)$ 具有过程级监督 $c_1, ..., c_T$,其中 $c_t$ 是步骤 $a_t$ 正确性的二元指示器。则应用以下逐步交叉熵损失:

数据收集。收集步骤级标注 $c_t$ 的成本极高。因此,近期工作使用蒙特卡洛树搜索(MCTS)等方法的变体来自动获取标注。具体来说,通过从中间步骤展开响应直到完成,然后使用结果的准确性作为该步骤正确性的代理。

4.2.3 生成式验证器

与判别式验证器的区别。ORM和PRM是判别式验证器,无法生成自然语言来支持其评分。生成式验证器则可以评估响应并提供自然语言反馈,这对于可操作的反馈和可解释性很有价值。

训练方法。生成式验证器通常分为批判模型(critique models)LLM即评判者(LLM-as-judge)模型。批判模型通常输入问题和模型响应,输出带有可操作反馈的批判。其训练数据通过采样有意不正确的输出并进行修正来构建,然后使用SFT或RLHF进行训练。LLM即评判者模型则训练用于根据不同协议(如成对评估、1-5分评级)评估模型响应,依赖于由强模型或人类标注的偏好数据集,并使用SFT或DPO进行训练。

判别-生成混合验证器。由于生成任务比分类任务更难,生成式验证器在基准测试性能上常落后于判别式奖励模型。近期工作【Zhang et al., 2024f, Generative verifiers: Reward modeling as next-token prediction, 2024, https://arxiv.org/abs/2408.15240】试图 在生成式奖励模型(Generative Reward Model)的框架下统一两者。这类模型在训练时,除了典型的语言生成损失(如SFT或DPO损失),还会增加一个答案词元损失:

5 学习推理

本节深入探讨通过训练来提升推理能力。我们探索了数据配方(data recipe),即为推理任务构建定制化的数据(推理轨迹);以及模型配方(model recipe),即如何利用这些轨迹进行训练,无论是“离线”方法(如SFT、DPO)还是“在线”方法(如GRPO、PPO)。

5.1 独立LLM的学习推理

本节检视如何训练独立LLM进行推理。这通常涉及收集包含正确和不正确结果的推理轨迹,然后在其上训练LLM。

5.1.1 为推理构建高质量提示词

问题增强(Question augmentation)。一个直接的方法是使用前沿LLM来增强现有数据集。例如,Xu等人【Xu et al., 2024a, Wizardlm: Empowering large pre-trained language models to follow complex instructions, 2024, https://openreview.net/forum?id=Kjww7ZN47M】提出使用LLM来“演化”现有提示集,扩展其深度和广度。Luo等人 【Luo et al., 2023b, Wizardmath: Empowering mathematical reasoning for large language models via reinforced evol-instruct, 2023, https://doi.org/10.48550/arXiv.2308.09583】采用类似策略,使用问题生成器迭代地产生更难和更容易的版本 。

基于知识图谱的合成(Knowledge graph-based synthesis)。为了增强多样性,研究者利用知识图谱来构建覆盖面更广的输入提示。例如,Li等人【Li et al., 2024a, Synthetic data (almost) from scratch: Generalized instruction tuning for language models, 2024, https://doi.org/10.48550/arXiv.2402.13064】使用前沿LLM直接生成知识图谱,然后用它来逐步合成有挑战性的问题,从而产生知识覆盖面更广的高质量指令微调数据集 。

表6:独立LLM的学习推理总结。

5.1.2 收集高质量推理轨迹

拒绝采样(Rejection sampling)。该方法旨在通过重复从策略模型采样来选择更高质量的样本。质量由两种方式确定:(1) 学习到的验证器(将在5.2节讨论),(2) 与真实标签直接比较。Zelikman等人【Zelikman et al., 2022, STar: Bootstrapping reasoning with reasoning, 2022, https://openreview.net/forum?id=_3ELRdg2sgI】提出的STaR方法将正确答案纳入指令,促使LLM迭代地修正不正确的推理轨迹。Tong等人 【Tong et al., 2024, Dart-math: Difficulty-aware rejection tuning for mathematical problem-solving, 2024, https://doi.org/10.48550/arXiv.2407.13690】则采用上采样策略,增加对较难问题的成功轨迹比例 。

鼓励特殊推理模式。另一条研究路线是利用类人推理行为(如自反思、深度推理)来提升推理准确性。一个著名的方法是Reasoning-as-Planning (RAP)【Hao et al., 2023, Reasoning with language model is planning with world model, 2023, https://doi.org/10.18653/V1/2023.EMNLP-MAIN.507】,它将推理分为思考、行动和观察三个步骤。此外, 受OpenAI o1模型成功的启发,一些研究者提出通过基于规则的合成来模仿其长且深的推理过程,例如将MCTS轨迹(包括失败的分支)展平,并让通用模型生成连接失败节点和成功路径上节点的桥接句【Qin et al., 2024, O1 replication journey: A strategic progress report – part 1, 2024, https://arxiv.org/abs/2410.18982】 。

推理蒸馏(Reasoning distillation)。一些研究从能产生良好推理链的模型(如OpenAI o1)中蒸馏推理模式,以在较小模型中复现类似行为。例如,研究者们分别从OpenAI-o1, Qwen-QWQ-32B, DeepSeek-R1等模型中蒸馏推理链。Min等人【Min et al., 2024, Imitate, explore, and self-improve: A reproduction report on slowthinking reasoning systems, 2024, https://arxiv.org/abs/2412.09413】通过从多个推理模型中蒸馏并聚合成统一格式来使该方法多样化 。

5.1.3 从轨迹中学习

监督微调(SFT)。最直接的方法是使用SFT在收集的轨迹上微调模型。近期SFT方法已转向数据扩展,Xu等人【Xu et al., 2025e, Redstar: Does scaling long-cot data unlock better slow-reasoning systems?, 2025, https://arxiv.org/abs/2501.11284】探索了将数据量增加到100万CoT样本的影响,发现性能随数据规模提升,但回报递减。相比之下,Muennighoff等人 【Muennighoff et al., 2025, s1: Simple test-time scaling, 2025】采用样本高效的方法,策划了一个高质量的1K样本推理数据集进行微调,并取得了与在更大数据集上训练的模型相当的性能。

偏好学习和强化学习。研究表明偏好学习能进一步提升性能。研究者们探索了DPO、步级DPO以及迭代DPO。此外,使用可验证答案标签的RL也显示出其重要性,其中使用基于规则的奖励(通过检查采样解的正确性)而不是奖励模型。Deepseek-R1【DeepSeek-AI et al., 2025, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, https://arxiv.org/abs/2501.12948】进一步揭示了纯粹使用可验证答案进行强化学习的潜力 。

使用潜在推理进行训练。为了解决典型推理模型生成长推理链导致推理时间增加的问题,一种名为潜在推理(latent reasoning)的替代方法侧重于隐式地表示推理轨迹。这通过完全省略中间推理词元或将其压缩为专门的推理词元或连续向量表示来实现。例如,Goyal等人【Goyal et al., 2024, Think before you speak: Training language models with pause tokens, 2024, https://openreview.net/forum?id=ph04CRkPdC】在预训练和微调期间引入可学习 的<pause>词元。Hao等人【Hao et al., 2024b, Training large language models to reason in a continuous latent space, 2024, https://doi.org/10.48550/arXiv.2412.06769】则提出使用语言建模头之前的最后一层隐藏状态作为隐式推理词元表示 。

5.2 单智能体系统的学习推理

本节探讨如何通过设计感知(perceptions)和智能体行动(agent actions)来实现模拟,以及如何使用这些轨迹训练智能体。

5.2.1 通过智能体-环境交互收集轨迹

整合执行反馈。通过与环境主动交互,智能体可以获得用于轨迹过滤的宝贵反馈。例如,NExT【Ni et al., 2024, Next: Teaching large language models to reason about code execution, 2024, https://openreview.net/forum?id=B1W712hMBi】利用单元测试来获取自生成的、导致正确解的理据用于训练。AlphaProof 【AlphaProof & teams, 2024, AI achieves silver-medal standard solving international mathematical olympiad problems, 2024, https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/】和DeepSeek-Prover 【Xin et al., 2024a, Deepseek-prover: Advancing theorem proving in llms through large-scale synthetic data, 2024, https://doi.org/10.48550/arXiv.2405.14333】通过与Lean证明助手交互来验证生成的解 。

训练外部模型。智能体可以利用与环境的交互来训练能反过来帮助其推理的外部模型。例如,Wu等人【Wu et al., 2024c, Internlm2. 5-stepprover: Advancing automated theorem proving via expert iteration on large-scale lean problems, 2024, https://arxiv.org/abs/2410.15700】训练了一个批判模型来识别较简单的问题以供策略探索。Re-ReST 【Dou et al., 2024b, Re-ReST: Reflectionreinforced self-training for language agents, 2024, https://doi.org/10.18653/v1/2024.emnlp-main.861】则训练了一个精炼器来纠正智能体的错误输出 。

使用验证器进行推理搜索。基于搜索的方法利用外部奖励模型或生成概率来引导解码,以解决对较难问题的采样挑战。例如,Wan等人【Wan et al., 2024c, Alphazero-like tree-search can guide large language model decoding and training, 2024, https://openreview.net/forum?id=C4OpREezgj】开发了基于MCTS的方法,使用学习到的LLM价值函数和结果奖励模型来识别更好的推理轨迹。Guan等人 【Guan et al., 2025, rstar-math: Small llms can master math reasoning with self-evolved deep thinking, 2025, https://arxiv.org/abs/2501.04519】仅依赖结果标签通过MCTS迭代更新策略模型和过程偏好模型(PPM) 。

从更强教师智能体蒸馏轨迹。为了解决具有挑战性的数学问题,Gou等人【Gou et al., 2024, Tora: A tool-integrated reasoning agent for mathematical problem solving, 2024, https://openreview.net/forum?id=Ep0TtjVoap】使用GPT-4策划了包含交互式工具使用(如代码执行)的轨迹。类似地,MuMath-Code 【Yin et al., 2024, Mumath-code: Combining tooluse large language models with multi-perspective data augmentation for mathematical reasoning, 2024, https://arxiv.org/abs/2405.07551】使用多视角数据增强来生成多样的数学问题,并使用GPT-4合成代码嵌套的解。AgentBank 【Song et al., 2024, Agentbank: Towards generalized llm agents via fine-tuning on 50000+ interaction trajectories, 2024, https://arxiv.org/abs/2410.07706】则引入了最大的智能体-环境交互轨迹数据集 。

表7:单智能体系统的学习推理总结。

5.2.2 从轨迹中训练智能体

监督微调(SFT)。收集轨迹后,许多方法应用SFT来训练智能体。例如,Dou等人【Dou et al., 2024b, Re-ReST: Reflectionreinforced self-training for language agents, 2024, https://doi.org/10.18653/v1/2024.emnlp-main.861】将精炼器修正的样本纳入自训练过程。Gou等人 【Gou et al., 2024, Tora: A tool-integrated reasoning agent for mathematical problem solving, 2024, https://openreview.net/forum?id=Ep0TtjVoap】等则在由专有LLM生成的智能体-环境交互轨迹上微调智能体 。

强化学习(RL)。除了SFT,RL也被用来进一步增强推理能力。GRPO【Shao et al., 2024, Deepseekmath: Pushing the limits of mathematical reasoning in open language models, 2024, https://arxiv.org/abs/2402.03300】在在线RL训练中使用可验证的结果奖励,取得了强大的实证性能。Wang等人 【Wang et al., 2024g, Math-shepherd: Verify and reinforce llms step-by-step without human annotations, 2024, https://doi.org/10.18653/v1/2024.acl-long.510】等人则证明在PPO训练中使用训练好的PRM能带来显著性能提升 。

使用精炼器学习。对于更具挑战性的问题,模型可能无法生成足够的成功轨迹。然而,即使是结果不正确的轨迹也可以被有效利用。例如,Qu等人【Qu et al., 2024a, Recursive introspection: Teaching language model agents how to self-improve, 2024, https://openreview.net/forum?id=DRC9pZwBwR】使用RL训练一个修正模型来迭代地精炼生成的响应。精炼器模型也可以被整合到搜索过程中以迭代地提升生成质量。为了解决精炼器可能无意中降低原本正确解质量的问题,Xiong等人 【Xiong et al., 2025, Self-rewarding correction for mathematical reasoning, 2025, https://arxiv.org/abs/2502.19613】引入了一个可学习的自奖励机制 。

5.3 多智能体系统的学习推理

本节探讨如何通过精心设计智能体间的通信和协调行动来收集轨迹,并利用这些轨迹进行训练。

5.3.1 设计智能体间通信

通信机制。确保每个智能体了解其他智能体的行动至关重要。一种有效的解决方案是使用中心化控制器,例如,MARCO框架【Zhang et al., 2021, Centralized model and exploration policy for multi-agent rl, 2021, https://arxiv.org/abs/2107.06434】采用中心化训练和去中心化执行来提高样本效率。为了实现有效的通信,Sukhbaatar等人 【Sukhbaatar et al., 2016, Learning multiagent communication with backpropagation, 2016, Advances in neural information processing systems】引入了一个带有为任务定制的学习协议的神经通信模型。此外,还可以实现一个共享消息池,智能体根据其个人资料发送和订阅相关消息。

5.3.2 协调多个智能体之间的行动

协调策略。为了增强多个智能体之间的协调,研究者提出了多种方法。Lau等人【Lau et al., 2012, Coordination guided reinforcement learning, 2012, AAMAS】利用专家协调知识作为约束来精炼探索和学习过程。基于图的方法也被用来改善协调,例如,GCS框架【Ruan et al., 2022, Gcs: Graph-based coordination strategy for multi-agent reinforcement learning, 2022, https://arxiv.org/abs/2201.06257】使用有向无环图来协调智能体策略。此外 ,层级化方法也被开发出来,例如HAVEN框架【Xu et al., 2023, Haven: Hierarchical cooperative multiagent reinforcement learning with dual coordination mechanism, 2023, Proceedings of the AAAI Conference on Artificial Intelligence】将策略分为策略和执行两个级别,以改善智能体间和级别间的协调。

5.3.3 从轨迹中进行多智能体训练

训练方法。与单智能体场景相比,多智能体训练在协调和通信复杂性上带来了额外挑战。DEBATUNE【Li et al., 2024c, Can llms speak for diverse people? tuning llms via debate to generate controllable controversial statements, 2024, https://arxiv.org/abs/2402.10614】采用两个持对立立场智能体之间的多轮辩论机制来生成训练数据。Subramaniam等人 【Subramaniam et al., 2025, Multiagent finetuning: Self improvement with diverse reasoning chains, 2025, https://arxiv.org/abs/2501.05707】则微调了一个智能体社会,它们专门从事不同角色(如“生成”和“批判”),产生多样的推理轨迹。Acc-Debate 【Estornell et al., 2024, Acc-debate: An actor-critic approach to multi-agent debate, 2024, https://arxiv.org/abs/2411.00053】利用Actor-Critic框架协同训练两个智能体。此外,Li等人 【Li et al., 2024f, Aligning individual and collective objectives in multi-agent cooperation, 2024, https://openreview.net/forum?id=2YSHEBRRol】通过修改梯度来引导智能体走向平衡个人和集体利益的稳定不动点 。

表8:多智能体系统的学习推理总结。

A7 补充细节

5.4 迈向成本感知和推理感知的训练

核心动机。随着推理模型日益复杂,确保效率和效果至关重要。推理时扩展和学习推理方法都伴随着成本。因此,成本感知(Cost-aware)推理感知(Inference-aware)的方法近来受到关注。

5.4.1 成本感知训练

学习降低推理成本。该研究方向探索通过动态分配资源来优化计算成本和推理性能之间的权衡。在提示分析方面,Damani等人【Damani et al., 2025, Learning how hard to think: Input-adaptive allocation of LM computation, 2025, https://openreview.net/forum?id=6qUUgw9bAZ】使用可学习模型预测查询难度并动态分配推理预算。在输出方面,Snell等人 【Snell et al., 2025, Scaling test-time compute optimally can be more effective than scaling LLM parameters, 2025, https://openreview.net/forum?id=4FWAwZtd2n】提出了一种前瞻性搜索方法,根据估计的回报在分支之间切换以最小化搜索成本 。

数据高效训练。另一个研究方向侧重于通过使用少量高质量样本来降低训练成本。Muennighoff等人【Muennighoff et al., 2025, s1: Simple test-time scaling, 2025】策划了一个包含1000个样本的数据集,强调难度、多样性和质量,并在其上微调Qwen2.5-32B-Instruct,在竞赛数学基准上取得了超越o1-preview的性能。Ye等人【Ye et al., 2025, Limo: Less is more for reasoning, 2025, https://arxiv.org/abs/2502.03387】则强调了这些性能提升依赖于强大的预训练模型 。

5.4.2 推理感知训练

核心思想。该方法挑战了将训练和推理时计算解耦的假设。其核心思想是,在训练期间明确考虑推理过程可以显著增强推理时计算的有效性。例如,如果一个LLM被允许多次尝试解决一个数学问题,那么微调它以探索多样的解题策略可能比简单地生成其最佳单次尝试的候选解效果更好。

具体方法。为了解决标准微调目标与Best-of-N(BoN)等推理策略之间的错位,Sessa等人【Sessa et al., 2024, BOND: aligning llms with best-of-n distillation, 2024, https://doi.org/10.48550/arXiv.2407.14622】提出了一个RL目标,使用Jeffreys散度将BoN分布蒸馏到策略模型中。Balashankar等人 【Balashankar et al., 2024, Infalign: Inference-aware language model alignment, 2024, https://doi.org/10.48550/ARXIV.2412.19792】开发了一种在对齐过程中包含BoN推理过程的校准奖励。Chow等人 【Chow et al., 2024, Inference-aware fine-tuning for bestof-n sampling in large language models, 2024, https://doi.org/10.48550/arXiv.2412.15287】则旨在直接优化BoN,通过使用RL框架来克服不可微的argmax算子 。

6 讨论:趋势与开放性挑战

6.1 观察到的趋势

从推理时扩展到学习推理。自CoT和自洽性【Wang et al., 2023f, Self-consistency improves chain of thought reasoning in language models, 2023, https://openreview.net/forum?id=1PL1NIMMrw】引入以来,推理时扩展技术成为提升推理性能的关键范式。研究者最初发现数据驱动方法(如SFT和知识蒸馏)非常有效,但这些方法依赖于强大的教师模型。一种替代方法是使用结果标签进行迭代拒绝采样 【Yuan et al., 2023, Scaling relationship on learning mathematical reasoning with large language models, 2023, https://doi.org/10.48550/ARXIV.2308.01825】。这些局限性催生了更数据高效的方法,如自动过程监督和迭代精炼。Deepseek-R1 【DeepSeek-AI et al., 2025, Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning, 2025, https://arxiv.org/abs/2501.12948】的发布进一步推动了该领域,展示了仅通过结果监督的纯强化学习就能生成类人的长推理链 。

从独立LLM到智能体系统。智能体系统的兴起显著影响了推理研究,出现了一个从独立LLM推理向智能体推理的清晰趋势。推理不再局限于单个LLM,而是期望与外部世界和其他智能体交互,并表现出如规划等自主性。尽管对于简单任务,智能体推理是否总是有益尚存争议,但当前系统的自主性主要局限于规划。系统级或元级规划,以及智能体的主动性(如主动寻求澄清),是未来重要的发展方向。

领域特定的推理器。尽管构建通用推理系统是一个开放问题,但开发领域特定推理模型的趋势日益增长。
* 数学推理:已沿着两条互补路径发展:一是“非形式化方法”,将数学问题视为自然语言任务进行微调(如NuminaMath, DeepSeekMath);二是“形式化方法”,将系统建立在精确的符号框架上,如证明助手Lean(如AlphaProof, AlphaGeometry)。
* 代码生成:训练范式已从指令微调演变为基于测试用例和编译器反馈的RL和偏好学习。近期的DeepSeek-R1和OpenAI的o3通过结果监督实现了端到端RL。另一个重要应用是软件工程,如SWE-Bench基准挑战LLM解决真实世界的软件工程问题。
* 表格推理:涉及将结构化数据转换为LLM可处理的格式。尽管各种适应方法取得了有希望的结果,但仍面临挑战,如处理多样的特征类型、对提示设计的敏感性以及幻觉问题。
* 多智能体游戏中的推理:战略性社交推理技能至关重要。为了捕捉多方的认知状态,“心智理论”(ToM)的概念被整合到建模过程中。RL方法和模块化框架(如ReTA)也被用来探索潜在行为和评估不同状态。
* 奖励建模和评估作为推理任务:尽管PRM在推理和训练中都很流行,但其训练需要大量的步骤级标注。自动化反馈机制(如树搜索)虽能避免人工标注,但常依赖于固定策略模型采样的轨迹,导致泛化能力差。因此,奖励建模的下一个前沿需要将自动化数据收集与多样化数据源相结合。

6.2 开放性挑战

评估推理。当前对LLM推理的评估主要依赖于固定基准上的结果性能,但这可能不足以验证推理的正确性,因为正确的最终答案不保证逻辑上合理的推理链。评估超越结果的推理仍然是一个开放且具挑战性的问题。早期的评估方法依赖人工标注员或训练模型作为模拟器,而LLM即评判者范式在复杂任务中也面临困难。

理解推理。关于理解LLM推理的研究沿着两条互补路径发展:经验性研究形式化分析
* 经验性分析:LLM表现出的推理能力是通用的还是仅针对训练中遇到的任务,这是一个悬而未决的问题。大量研究通过精心设计的实验来探究LLM在不同推理形式(如抽象、组合、归纳、演绎等)上的能力和局限。
* 形式化分析:使用结构化和逻辑证明来系统地评估和改进LLM的推理能力。例如,FOLIO数据集评估模型使用一阶逻辑推理的能力。这些研究揭示了LLM在结构化推理中的局限性,并强调了整合形式化分析以增强其能力的价值。
* ICL和CoT的理论分析:理论研究表明,基于Transformer的上下文学习器可以有效地实现各种学习算法。关于CoT机制的理论工作相对有限,主要集中于其表达能力。例如,研究证明,通过生成CoT推导,恒定大小的模型可以解决基本算术和一系列决策问题。

推进推理能力的数据挑战
* 扩展RL的问答和结果监督的挑战:前沿模型正接近可用的人类标注数据的极限,这引发了一个问题:超越人类标签的方法是否能支持RL的持续扩展?这在提示不易验证的领域尤其重要。
* 奖励建模的挑战:过程监督的标注成本高昂且定义模糊,限制了其在大规模RL中的应用。此外,奖励模型的训练范式与推理模型紧密相关,这引发了担忧:将相同的标注预算直接用于推理模型是否可能带来更稳定和普适的改进,从而限制了通过推理时扩展可实现的收益。

A4 实验环境与结果

实验环境

由于本文是一篇综述性论文,它没有单一、特定的实验环境。相反,它回顾和分析了大量已有研究,这些研究涵盖了广泛的实验设置。以下是论文中反复提及的一些关键元素,它们共同构成了LLM推理研究领域的典型实验环境:

  1. 数据集与基准

  2. 模型架构

    • 前沿闭源模型:OpenAI的GPT系列(如GPT-4, GPT-4o)、o1、o3,Anthropic的Claude系列。
    • 前沿开源模型:DeepSeek的DeepSeek-R1、DeepSeekMath、DeepSeek-Coder,Qwen的Qwen2.5,Llama系列(如Llama 2, Llama 3),MetaMath,Llemma等。
  3. 硬件与软件配置

    • 本文未指定统一的硬件配置,但提及的研究通常在包含大量高端GPU(如NVIDIA A100/H100)的计算集群上进行。
    • 软件方面,研究通常基于PyTorch、Transformers等深度学习框架,并利用如Lean、Isabelle等证明助手进行形式化验证。

实验结果

作为一篇综述,本文的“结果”并非来自单一实验,而是通过对大量文献的系统性梳理,提炼出的领域发展趋势、关键发现和未解挑战。主要结论总结如下:

  1. 范式演进趋势:研究范式正从推理时扩展学习推理演进。早期通过CoT、自洽性等推理时技术提升性能,而近期以DeepSeek-R1为代表的工作表明,通过大规模强化学习(一种学习推理方法)可以直接在模型内部习得复杂的、类似搜索的推理行为,且计算效率更高。
  2. 架构演进趋势:模型架构正从独立LLM智能体系统演进。通过与外部工具、知识库和其它智能体交互,LLM能够克服自身知识局限和推理缺陷,解决更复杂、更需要与现实世界接轨的问题。
  3. 领域特定推理器的兴起:尽管通用推理是最终目标,但目前最先进的推理模型大多在特定领域(尤其是数学代码)取得了突破。这表明,在特定领域内进行深度优化是当前提升推理能力卓有成效的路径。形式化方法(如使用证明助手)在数学推理中展现出巨大潜力。
  4. 学习算法的收敛:在“学习推理”范式下,基于结果监督的强化学习(特别是PPO和GRPO等变体)已成为训练顶尖推理模型的主流方法。这标志着领域从依赖人工设计的、带有强归纳偏置的监督数据,转向了让模型通过与环境(或验证器)交互进行自我改进。
  5. 评估和理解仍是核心挑战

    • 评估挑战:当前依赖最终答案的评估方法无法保证推理过程的正确性。如何可靠、可扩展地评估推理链的忠实度和逻辑健全性,是一个亟待解决的难题。
    • 理解挑战:我们对LLM“如何”推理的理解仍然有限。模型生成的推理链究竟是其内部思维过程的真实反映,还是对训练数据的模仿,尚无定论。理论和实证分析正在逐步揭示其背后的机制,但仍有很长的路要走。
  6. 数据瓶颈问题:高质量、大规模的训练数据(尤其是带有逐步推理过程或偏好标签的数据)是推动推理能力发展的关键瓶颈。无论是训练更强的推理器还是更准的验证器(奖励模型),都面临数据稀缺和标注成本高昂的挑战。

A5 结论

本文对大型语言模型(LLM)的推理能力进行了及时而全面的综述。我们首先形式化了LLM推理的目标,并通过一个创新的分类框架整合了过往的研究。该框架从范式(推理时扩展 vs. 学习推理)和架构(独立LLM vs. 智能体系统)两个正交维度对现有技术进行了归类。在每个维度下,我们都详细审视了输入输出层面的技术细节。

我们的回顾揭示了该领域的新兴趋势,包括从推理时扩展学习推理范式的转变,以及从独立模型智能体系统架构的过渡。我们还详细回顾和比较了从监督微调到强化学习的各种学习算法,以及推理器和验证器的训练方法。

尽管取得了这些进展,但领域内仍然存在诸多挑战,特别是在评估推理过程理解真实的推理机制以及解决推进推理能力所需的数据瓶颈方面。我们鼓励未来的研究进一步探索本文揭示的趋势,例如开发推理感知的学习推理方法自动化的多智能体设计,以期进一步增强LLM的推理能力,为构建更复杂、更可靠的AI系统铺平道路。

A6 附录

本文档未提供附录部分。