Large Language Model based Multi-Agents: A Survey of Progress and Challenges

发表时间: 2024-02 · arXiv:2402.01680 (Notre Dame, IJCAI 2024)

文章标题: 基于大型语言模型的多智能体：进展与挑战综述
作者: Taicheng Guo, Xiuying Chen, Yaqi Wang, Ruidi Chang, Shichao Pei, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang
机构: 圣母大学, 阿卜杜拉国王科技大学, 南方科技大学, 马萨诸塞大学波士顿分校

A1 主要贡献

本文旨在对基于大型语言模型（LLM）的多智能体（LLM-MA）这一动态领域进行全面概述。随着LLM在推理和规划方面展现出接近人类的卓越能力，基于单个LLM的自主智能体研究迅速发展。在此基础上，利用多个智能体的集体智慧和专业技能的LLM-MA系统应运而生，并在解决复杂问题和进行世界模拟方面取得了显著进展。

核心问题与研究目标：
当前，LLM-MA领域的研究工作虽然数量迅速增长（如图1所示），但大多是独立进行的，缺乏一个系统的综述来总结已有成果、描绘该领域的全貌并探讨未来的研究挑战。因此，本文的核心目标是：
1. 系统性梳理：为研究社区提供关于LLM-MA系统各关键方面的深入探讨，包括智能体如何与环境交互、如何进行角色设定（profiling）、如何通信协作以及如何获得和提升能力。
2. 应用归类：将当前LLM-MA的应用分为两大主流：问题解决和世界模拟，并详细介绍各类别下的具体研究。
3. 资源整合：总结该领域常用的开源实现框架、数据集和基准，为新进入的研究者提供便利。
4. 挑战与展望：识别并讨论当前面临的挑战及未来的研究机会，激发该领域的进一步探索和创新。

主要贡献与创新点：
1. 提出综合分析框架：本文提出了一个剖析LLM-MA系统的综合架构，从智能体-环境接口、智能体画像、智能体通信和智能体能力获取四个关键维度，对现有工作进行定位、区分和关联。
2. 全面的应用综述：首次将LLM-MA的应用划分为“问题解决”和“世界模拟”两大类别，并对软件开发、具身智能体、社会模拟、游戏、经济学等多个子领域的代表性工作进行了详细阐述。
3. 提供可持续资源：为了补充静态的综述论文并持续追踪该领域的最新进展，作者维护了一个开源的GitHub代码库，致力于收录关于LLM-MA系统的最新研究。
4. 跨学科视角：本文不仅面向AI专家，也旨在帮助来自社会科学、心理学、政策研究等不同背景的研究人员理解LLM-MA技术，促进跨学科研究的发展。

图1：基于LLM的多智能体研究领域的增长趋势。我们将当前工作分为问题解决和世界模拟两大类，并以3个月为间隔统计了不同类型论文的数量。每个叶节点上的数字表示该类别下的论文数量。

A3 背景知识

2.1 基于LLM的单智能体系统

我们首先概述基于LLM的单智能体系统的能力，这部分讨论遵循了【96，LLM Powered Autonomous Agents，2023】的观点。

决策思维：该能力指基于LLM的智能体在提示的引导下，能够将复杂任务分解为更小的子目标【46，Decomposed prompting: A modular approach for solving complex tasks，2023】，有条不紊地思考每个部分（有时会探索多条路径）【104，Tree of thoughts: Deliberate problem solving with large language models，2023】，并从过去的经验中学习【88，Reflexion: Language agents with verbal reinforcement learning，22023】，从而在复杂任务上做出更好的决策。此能力增强了单个LLM智能体的自主性，并提升了其解决问题的有效性。
工具使用：基于LLM的智能体的工具使用能力使其能够利用外部工具和资源来完成任务，增强了其功能能力，并能在多样化和动态的环境中更有效地运作【59，Api-bank: A comprehensive benchmark for tool-augmented llms，2023；86，Tptu: Large language model-based ai agents for task planning and tool usage，2023；27，Retrieval-augmented generation for large language models: A survey，2023】。
记忆：该能力指基于LLM的智能体能够通过上下文学习（in-context learning）【21，A survey on in-context learning，2023】作为短期记忆，或使用外部向量数据库【48，Retrieval-augmented generation for knowledge-intensive nlp tasks，2021】作为长期记忆，来长时间保存和检索信息【93，A survey on large language model based autonomous agents，2023】。这种能力使单个LLM智能体能够保持上下文连贯性，并增强从交互中学习的能力。

2.2 单智能体 vs. 多智能体系统

由LLM赋能的单智能体系统已展现出令人振奋的认知能力【89，Cognitive architectures for language agents，2023】。此类系统的构建侧重于其内部机制的制定以及与外部环境的互动。相比之下，LLM-MA系统则更强调多样化的智能体画像、智能体间的互动以及集体决策过程。从这个角度看，通过多个自主智能体的协作，可以解决更动态和复杂的任务，其中每个智能体都配备了独特的策略和行为，并相互进行通信。

A2 方法细节

本节深入探讨LLM-MA系统的复杂性，在这些系统中，多个自主智能体参与协作活动，类似于人类在解决问题场景中的团队动态。我们解决的一个关键问题是，这些LLM-MA系统如何与其操作环境及旨在实现的集体目标保持一致。为了阐明这一点，我们在图2中展示了这些系统的通用架构。我们的分析剖析了这些系统的操作框架，重点关注四个关键方面：智能体-环境接口、智能体画像、智能体通信和智能体能力获取。

图2：LLM-MA系统的架构。

3.1 智能体-环境接口

环境定义与智能体交互。操作环境定义了LLM-MA系统部署和交互的具体背景或设置。例如，这些环境可以是软件开发【41，Metagpt: Meta programming for multi-agent collaborative framework，2023】，游戏【76，Alympics: Language agents meet game theory，2023】，以及金融市场【62，Tradinggpt: Multi-agent system with layered memory and distinct characters for enhanced financial trading performance，2023】或社会行为建模【83，Generative agents: Interactive simulacra of human behavior，2023】等各种其他领域。基于LLM的智能体在环境中感知和行动，环境反过来又影响它们的行为和决策。例如，在狼人杀游戏模拟中，沙盒环境设定了游戏的框架，包括昼夜转换、讨论时段、投票机制和奖励规则。狼人、预言家等智能体执行特定行动，如杀人或查验身份。行动之后，智能体从环境中获得反馈，了解游戏的当前状态。这些信息引导智能体随着时间的推移调整其策略，以应对不断变化的游戏进程和其他智能体的互动。智能体-环境接口指的是智能体与环境互动和感知环境的方式。通过这个接口，智能体理解其周围环境，做出决策，并从其行动的结果中学习。

接口分类。我们将当前LLM-MA系统中的接口分为三类：沙盒（Sandbox）、物理（Physical）和无（None），如表1所示。
* 沙盒（Sandbox）：指由人类构建的模拟或虚拟环境，智能体可以在其中更自由地互动，并试验各种行动和策略。这类接口广泛用于软件开发（代码解释器作为模拟环境）【41，Metagpt: Meta programming for multi-agent collaborative framework，2023】、游戏（使用游戏规则作为模拟环境）【76，Alympics: Language agents meet game theory，2023】等。
* 物理（Physical）：指真实世界环境，智能体与物理实体互动，并遵守现实世界的物理规则和约束。在物理空间中，智能体通常需要采取能产生直接物理后果的行动。例如，在扫地、做三明治、打包杂货和整理橱柜等任务中，机器人智能体需要迭代地执行动作，观察物理环境，并不断完善其动作【74，Roco: Dialectic multi-robot collaboration with large language models，2023】。
* 无（None）：指没有特定外部环境，智能体不与任何环境互动的场景。例如，许多应用【24，Improving factuality and reasoning in language models through multiagent debate，2023；102，Examining inter-consistency of large language models collaboration: An in-depth analysis via debate，2023；5，Chateval: Towards better llm-based evaluators through multi-agent debate，2023】利用多个智能体就一个问题进行辩论以达成共识。这些应用主要关注智能体之间的通信，不依赖于外部环境。

3.2 智能体画像

智能体角色定义。在LLM-MA系统中，智能体由其特质、行动和技能定义，这些都是为满足特定目标而量身定制的。在各种系统中，智能体扮演着不同的角色，每个角色都有全面的描述，包括特征、能力、行为和约束。例如，在游戏环境中，智能体可能被描绘成具有不同角色和技能的玩家，每个玩家对游戏目标的贡献各不相同。在软件开发中，智能体可能扮演产品经理和工程师的角色，各自拥有指导开发过程的职责和专业知识。同样，在辩论平台中，智能体可能被指定为支持者、反对者或评判者，每个角色都有独特的功能和策略来有效履行其职责。这些画像对于定义智能体在其各自环境中的互动和效能至关重要。表1列出了近期LLM-MA工作中的智能体画像。

智能体画像方法分类。我们将智能体画像方法分为三类：预定义（Pre-defined）、模型生成（Model-Generated）和数据派生（Data-Derived）。
* 预定义（Pre-defined）：智能体画像由系统设计者明确定义。
* 模型生成（Model-Generated）：通过模型（如大型语言模型）创建智能体画像。
* 数据派生（Data-Derived）：基于预先存在的数据集构建智能体画像。

表1：LLM-MA研究总结。我们根据动机、研究领域和目标对当前工作进行分类，并从智能体-环境接口、智能体画像、智能体通信和智能体能力获取等不同方面详细介绍每项工作。“-”表示该项工作中未特别提及某个元素。

3.3 智能体通信

LLM-MA系统中智能体之间的通信是支撑集体智慧的关键基础设施。我们从三个角度剖析智能体通信：1) 通信范式：智能体之间互动的风格和方法；2) 通信结构：多智能体系统内通信网络的组织和架构；3) 通信内容：智能体之间交换的信息。

通信范式。当前的LLM-MA系统主要采用三种通信范式：合作式（Cooperative）、辩论式（Debate）和竞争式（Competitive）。
* 合作式（Cooperative）：智能体共同为一个共享的目标或目的而努力，通常通过交换信息来增强集体解决方案。
* 辩论式（Debate）：当智能体参与辩论性互动时采用此范式，它们提出并捍卫自己的观点或解决方案，并批评他人的观点。这种范式非常适合达成共识或更精炼的解决方案。
* 竞争式（Competitive）：智能体为实现自身目标而工作，这些目标可能与其他智能体的目标相冲突。

通信结构。图3展示了LLM-MA系统中的四种典型通信结构。
* 分层式（Layered）：通信是分层组织的，每层的智能体具有不同的角色，主要在其层内或与相邻层互动。【68，Dynamic llm-agent network: An llmagent collaboration framework with agent team optimization，2023】引入了一个名为动态LLM-智能体网络（DyLAN）的框架，该框架将智能体组织在一个多层前馈网络中。这种设置促进了动态互动，并包含了推理时智能体选择和提前停止机制等特性，共同提高了智能体之间的合作效率。
* 去中心化式（Decentralized）：通信在点对点网络上运行，智能体直接相互通信，这种结构通常用于世界模拟应用中。
* 中心化式（Centralized）：通信涉及一个或一组中心智能体协调系统的通信，其他智能体主要通过这个中心节点进行互动。
* 共享消息池（Shared Message Pool）：由MetaGPT【41，Metagpt: Meta programming for multi-agent collaborative framework，2023】提出，旨在提高通信效率。这种通信结构维护一个共享的消息池，智能体在其中发布消息，并根据其画像订阅相关消息，从而提升了通信效率。

图3：智能体通信结构。

通信内容。在LLM-MA系统中，通信内容通常以文本形式存在。具体内容千差万别，取决于具体的应用。例如，在软件开发中，智能体可能就代码片段进行交流。在像狼人杀这样的游戏模拟中，智能体可能会讨论他们的分析、怀疑或策略。

3.4 智能体能力获取

智能体能力获取是LLM-MA中的一个关键过程，使智能体能够动态地学习和进化。在此背景下，有两个基本概念：智能体应从中学习以增强其能力的反馈类型，以及智能体为有效解决复杂问题而进行自我调整的策略。

反馈。反馈涉及智能体收到的关于其行动结果的关键信息，帮助智能体了解其行动的潜在影响，并适应复杂动态的问题。在大多数研究中，提供给智能体的反馈格式是文本。根据智能体接收反馈的来源，可以将其分为四种类型：
1. 来自环境的反馈：例如，来自真实世界环境或虚拟环境的反馈【93，A survey on large language model based autonomous agents，2023】。这在大多数用于问题解决的LLM-MA场景中很普遍，包括软件开发（智能体从代码解释器获取反馈）和具身多智能体系统（机器人从真实世界或模拟环境获取反馈）。
2. 来自智能体互动的反馈：指反馈来自其他智能体的判断或智能体间的通信。这在科学辩论等问题解决场景中很常见，智能体通过通信学会批判性地评估和完善结论。在游戏模拟等世界模拟场景中，智能体根据与其他智能体之前的互动来学习完善策略。
3. 人类反馈：直接来自人类，对于将多智能体系统与人类价值观和偏好对齐至关重要。这类反馈在大多数“人在环路”（Human-in-the-loop）应用中被广泛使用【92，Putting humans in the natural language processing loop: A survey，2021】。
4. 无反馈：在某些情况下，不向智能体提供反馈。这通常发生在专注于分析模拟结果而非智能体规划能力的世界模拟工作中。在此类场景中，如传播模拟，重点是结果分析，因此反馈不是系统的一个组成部分。

智能体对复杂问题的调整。为了增强自身能力，LLM-MA系统中的智能体可以通过三种主要解决方案进行适应：
1. 记忆（Memory）：大多数LLM-MA系统利用记忆模块来让智能体调整其行为。智能体将先前互动和反馈中的信息存储在记忆中。在执行动作时，它们可以检索相关的、有价值的记忆，特别是那些包含针对类似过去目标的成功动作的记忆，正如【93，A survey on large language model based autonomous agents，2023】所强调的。这个过程有助于增强它们当前的行为。
2. 自我进化（Self-Evolution）：与仅仅依赖历史记录来决定后续行动的基于记忆的解决方案不同，智能体可以通过修改自身（例如改变其初始目标和规划策略）以及基于反馈或通信日志进行自我训练来动态地自我进化。【79，Self-adaptive large language model (llm)-based multiagent systems，2023】提出了一个自控循环过程，允许在多智能体系统中的每个智能体自我管理和自适应动态环境，从而提高多智能体的合作效率。【106，Proagent: Building proactive cooperative ai with large language models，2023】介绍了ProAgent，它能预测队友的决策，并根据智能体之间的通信日志动态调整每个智能体的策略，促进相互理解并提高协作规划能力。【92，Adapting llm agents through communication，2023】讨论了一种“通过通信学习”（Learning through Communication, LTC）的范式，使用多智能体的通信日志生成数据集来训练或微调LLM。LTC使智能体能够通过与环境和其他智能体的互动持续适应和改进，打破了上下文学习或监督式微调的局限，后者没有充分利用与环境和外部工具互动期间收到的反馈进行持续训练。自我进化使智能体能够自主调整其画像或目标，而不仅仅是从历史互动中学习。
3. 动态生成（Dynamic Generation）：在某些场景中，系统可以在其运行期间即时生成新的智能体【8，Autoagents: A framework for automatic agent generation，2023；10，Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents，2023】。这种能力使系统能够有效地扩展和适应，因为它可以引入专门设计来应对当前需求和挑战的智能体。

智能体编排。随着LLM-MA系统智能体数量的增加，管理各种智能体的复杂性不断升级，已成为一个关键问题。智能体编排（Agents Orchestration）作为一个关键挑战出现，并开始受到关注【77，Crewai，2023；19，Multi-agent llm applications — a review of current research, tools, and challenges，2023】。我们将在第6.4节进一步讨论这个主题。

A4 实验结果

作为一个综述性研究，本文没有独立的实验部分，而是系统性地总结了现有LLM-MA研究的应用成果。这些成果可以分为两大类：问题解决和世界模拟。

问题解决类应用成果：
LLM-MA系统通过模拟具有不同专业知识的智能体协同工作，在解决复杂问题上展示了巨大潜力。
* 软件开发：系统能够模拟产品经理、程序员、测试员等角色，遵循标准操作流程（SOPs），通过分层通信和与代码解释器的交互，自主完成从需求分析到代码生成、测试和优化的全过程。例如，MetaGPT通过编码SOPs来增强协作的结构性和可控性，取得了优于单个LLM的性能。
* 具身智能体：在多机器人协作任务中，LLM-MA系统能够实现高层级的任务规划和通信。例如，RoCo框架让每个机器人配备一个LLM，成功完成了需要协作的物理操作任务。CoELA等工作则解决了在去中心化、部分可观察等复杂环境下的协作规划问题。
* 科学实验：系统可以模拟一个科学团队，分工合作进行复杂的实验，如优化材料合成过程。这类应用强调“人在环路”的重要性，人类专家负责监督和指导，以确保实验的安全性和准确性。
* 科学辩论：通过让多个智能体就科学问题（如MMLU、数学题）进行多轮辩论，系统能够提升推理的准确性和事实性，并最终达成共识。研究表明，这种辩论过程还能改善不同LLM之间的一致性。

世界模拟类应用成果：
LLM-MA系统利用LLM卓越的角色扮演能力，成功模拟了各种真实世界的场景，为社会科学、经济学、心理学等领域的研究提供了新的工具。
* 社会模拟：系统能够创建包含成百上千个具有不同画像的智能体的虚拟社区，模拟信息传播、观点形成、反社会行为等复杂的社会动态。这些模拟产生的大量行为数据，为检验社会科学理论提供了支持。
* 游戏：在狼人杀、阿瓦隆等依赖自然语言沟通的游戏中，LLM-MA系统模拟玩家进行策略博弈，探索合作、欺骗、说服、领导力等复杂行为，并用于检验博弈论假设。
* 心理学与经济学：系统通过模拟具有不同人格特质和决策模型的个体，复现了经典的心理学和经济学实验，如从众行为、市场交易等。这些模拟有助于理解人类行为模式，并产生了与社会、经济理论相符的见解。
* 推荐系统：通过将用户和物品都建模为智能体，系统可以模拟用户与推荐系统之间的复杂交互，从而研究“信息茧房”等现象，并优化推荐算法。
* 政策制定与疾病传播：系统能够模拟政府应对公共危机（如水污染）的决策过程，或模拟战争等国际冲突的演变。在公共卫生领域，它还能模拟疾病在人群中的传播模式，以及个体在疫情中的行为反应（如自我隔离），其模拟结果与真实世界的大流行病曲线相似。

总体而言，现有研究表明，LLM-MA系统不仅在具体任务上超越了单个LLM智能体，更重要的是，它为模拟和理解复杂的集体行为和动态系统提供了一个强大而灵活的框架。

A7 补充细节

4. 应用

LLM-MA系统已被用于广泛的应用中。我们在表1中总结了两类应用：问题解决和世界模拟。我们在下面详细阐述这些应用。请注意，这是一个快速发展的研究领域，几乎每天都有新的应用出现。我们维护一个开源代码库来报告最新的工作。

4.1 用于问题解决的LLM-MA

利用集体智慧。使用LLM-MA解决问题的主要动机是利用具有专业知识的智能体的集体能力。这些智能体各自作为个体行动，协同合作以有效解决复杂问题，如软件开发、具身智能体、科学实验和科学辩论。接下来将介绍这些应用示例。

4.1.1 软件开发

模拟开发流程。鉴于软件开发是一项需要产品经理、程序员和测试员等多种角色协作的复杂工作，LLM-MA系统通常被设置为模拟这些不同的角色并协同解决这一复杂挑战。遵循软件开发的瀑布流或标准化操作流程（SOPs），智能体之间的通信结构通常是分层的。智能体通常与代码解释器、其他智能体或人类互动，以迭代地完善生成的代码。【57，Camel: Communicative agents for” mind” exploration of large scale language model society，2023】首次提出了一个简单的角色扮演智能体框架，利用两个角色的相互作用，基于一句话的用户指令实现自主编程。它为交流型智能体的“认知”过程提供了洞见。【23，Self-collaboration code generation via chatgpt，2023】让LLM在软件开发中扮演不同的“专家”，自主协作生成代码。此外，【84，Communicative agents for software development，2023】提出了一个用于软件开发的端到端框架，利用多个智能体进行软件开发，而没有融入先进的人类团队合作经验。【41，Metagpt: Meta programming for multi-agent collaborative framework，2023】首次融入了人类工作流程的见解，以实现更可控和经过验证的性能。它将SOPs编码到提示中，以增强结构化的协调。【43，Agentcoder: Multi-agent-based code generation with iterative testing and optimisation，2023】通过解决代码片段生成与有效的测试用例生成、执行和优化之间的平衡问题，更深入地研究了基于多智能体的编程。

4.1.2 具身智能体

多机器人协作。大多数具身智能体应用天生就利用多个机器人协同工作，以执行复杂的现实世界规划和操作任务，例如具有异构机器人能力的仓库管理。因此，LLM-MA可用于建模具有不同能力的机器人，并相互合作以解决现实世界中的物理任务。【18，Collaborating with language models for embodied reasoning，2023】首次探索了使用LLM作为嵌入式智能体行动规划器的潜力。【74，Roco: Dialectic multi-robot collaboration with large language models，2023】介绍了RoCo，一种用于多机器人协作的新方法，它使用LLM进行高级通信和低级路径规划。每个机械臂都配备一个LLM，与逆运动学和碰撞检测协同工作。实验结果证明了RoCo在协作任务中的适应性和成功。【107，Building cooperative embodied agents modularly with large language models，2023】提出了CoELA，一个协作式具身语言智能体，在LLM-MA设置中管理讨论和任务规划。这个具有挑战性的设置特点是去中心化控制、复杂的局部观察、昂贵的通信和多目标长周期任务。【12，Scalable multirobot collaboration with large language models: Centralized or decentralized systems?，2023】研究了涉及大量机器人的场景中的通信挑战，因为为每个机器人分配一个LLM会因上下文过长而变得昂贵且不切实际。该研究比较了四种通信框架——中心化、去中心化和两种混合模型——以评估它们在协调复杂多智能体任务中的有效性。【105，Co-navgpt: Multi-robot cooperative visual semantic navigation using large language models，2023】提出了CoNavGPT，用于多机器人合作视觉目标导航，将LLM集成为一个全局规划器，为每个机器人分配前沿目标。【9，Multi-agent consensus seeking via large language models，2023】提出了一个基于LLM的共识寻求框架，可以作为多机器人聚合任务的协作规划器应用。

4.1.3 科学实验

模拟科学团队。就像多个智能体扮演不同专家并合作解决软件开发和具身智能体问题一样，多个智能体也可以用来组成一个科学团队来进行科学实验。与先前应用的一个重要区别在于人类监督的关键作用，这是由于科学实验的高昂费用和LLM智能体的幻觉问题。人类专家处于这些智能体的中心，处理智能体的信息并向智能体提供反馈。【111，Chatgpt research group for optimizing the crystallinity of mofs and cofs，2023】利用多个基于LLM的智能体，每个智能体专注于科学实验的特定任务，包括策略规划、文献检索、编码、机器人操作和实验器皿设计。所有这些智能体都与人类互动，协同工作以优化复杂材料的合成过程。

4.1.4 科学辩论

提升集体推理。LLM-MA可以设置为科学辩论场景，其中智能体相互辩论以增强在诸如海量多任务语言理解（MMLU）【40，Measuring massive multitask language understanding，2020】、数学问题【14，Training verifiers to solve math word problems，2021】和StrategyQA【28，Did aristotle use a laptop? A question answering benchmark with implicit reasoning strategies，2021】等任务中的集体推理能力。其主要思想是每个智能体最初提供自己对问题的分析，然后进行联合辩论过程。通过多轮辩论，智能体们最终达成一个单一的、共识的答案。【24，Improving factuality and reasoning in language models through multiagent debate，2023】在一组六个不同的推理和事实准确性任务上利用多智能体辩论过程，并证明LLM-MA辩论可以提高事实性。【102，Examining inter-consistency of large language models collaboration: An in-depth analysis via debate，2023】专注于常识推理任务，并制定了一个三阶段辩论以与现实世界场景对齐，包括公平辩论、不匹配辩论和圆桌辩论。该论文还分析了不同LLM之间的内部一致性，并声称辩论可以提高内部一致性。【90，Medagents: Large language models as collaborators for zero-shot medical reasoning，2023】也利用多个基于LLM的智能体作为不同的领域专家，对一份医疗报告进行协作讨论，以达成医疗诊断的共识。

4.2 用于世界模拟的LLM-MA

模拟真实世界互动。LLM-MA的另一个主流应用场景是世界模拟。该领域的研究正在迅速增长，并跨越了社会科学、游戏、心理学、经济学、政策制定等多个领域。在世界模拟中使用LLM-MA的关键原因在于其卓越的角色扮演能力，这对于在模拟世界中真实地描绘各种角色和观点至关重要。世界模拟项目的环境通常被精心设计以反映正在模拟的特定场景，智能体也被设计成各种画像以匹配此背景。与专注于智能体合作的问题解决系统不同，世界模拟系统涉及多样化的智能体管理和通信方法，反映了现实世界互动的复杂性和多样性。接下来，我们探讨在不同领域进行的模拟。

4.2.1 社会模拟

探索社会动态。在社会模拟中，LLM-MA模型被用来模拟社会行为，旨在探索潜在的社会动态和传播，检验社会科学理论，并用现实的社会现象填充虚拟空间和社区【83，Generative agents: Interactive simulacra of human behavior，2023】。利用LLM的能力，具有独特画像的智能体进行广泛的交流，为深入的社会科学分析生成丰富的行为数据。

社会模拟的规模随时间扩大，从较小、更私密的环境开始，逐步发展到更大、更复杂的环境。由【83，Generative agents: Interactive simulacra of human behavior，2023】完成的初步工作在一个类似于《模拟人生》的互动沙盒环境中引入了生成式智能体，允许终端用户通过自然语言与一个由25个智能体组成的小型社区进行互动。与此同时，【82，Social simulacra: Creating populated prototypes for social computing systems，2022】开发了Social Simulacra，构建了一个包含1000个角色的模拟社区。该系统接受设计师对社区的愿景——其目标、规则和成员角色——并进行模拟，生成如发帖、回复甚至反社会行为等行为。在此基础上，【26，S3: Social-network simulation system with large language model-empowered agents，2023】将这一概念进一步发展，构建了分别包含8563和17945个智能体的庞大网络，旨在模拟关注性别歧视和核能话题的社交网络。这一演变展示了近期研究中模拟环境日益增加的复杂性和规模。近期的研究如【9，Multi-agent consensus seeking via large language models，2023；45，Lyfe agents: Generative agents for low-cost real-time social interactions，2023；56，Quantifying the impact of large language models on collective opinion dynamics，2023；61，Are you in a masquerade? exploring the behavior and impact of large language model driven social bots in online social networks，2023；113，Can large language models transform computational social science? Computational Linguistics，2023】凸显了多智能体系统中不断演变的复杂性、LLM对社交网络的影响及其与社会科学研究的融合。

4.2.2 游戏

测试博弈论假设。LLM-MA非常适合创建模拟游戏环境，允许智能体在游戏中扮演各种角色。这项技术能够开发可控、可扩展和动态的环境，这些环境能紧密模仿人类互动，使其成为测试一系列博弈论假设的理想选择【76，Alympics: Language agents meet game theory，2023；103，Exploring large language models for communication games: An empirical study on werewolf，2023；30，Mindagent: Emergent gaming interaction，2023】。大多数由LLM-MA模拟的游戏严重依赖自然语言交流，在不同的游戏设置中提供了一个沙盒环境，用于探索或测试包括推理、合作、说服、欺骗、领导力等在内的博弈论假设。

【3，Playing repeated games with large language models，2023】利用行为博弈论来检验LLM在互动社交环境中的行为，特别是它们在诸如迭代囚徒困境和两性战争等游戏中的表现。此外，【103，Exploring large language models for communication games: An empirical study on werewolf，2023】提出了一个使用ChatArena库【100，Chatarena: Multi-agent language game environments for large language models，2023】的框架，让LLM参与像狼人杀这样的交流游戏，通过检索和反思过去的交流来改进，并使用了思维链（Chain-of-Thought）机制【95，Chain-of-thought prompting elicits reasoning in large language models，2022】。【67，From text to tactic: Evaluating llms playing the game of avalon，2023】探索了LLM智能体在玩《抵抗组织：阿瓦隆》游戏中的潜力，并引入了AVALONBENCH，一个全面的游戏环境和基准，用于进一步开发先进的LLM和多智能体框架。【94，Avalon’s game of thoughts: Battle against deception through recursive contemplation，2023】也关注LLM智能体在阿瓦隆游戏中处理错误信息的能力，提出了递归思考（ReCon）框架，以增强LLM辨别和反击欺骗性信息的能力。【104，Language agents with reinforcement learning for strategic play in the werewolf game，2023】引入了一个结合LLM和强化学习（RL）的框架，为狼人杀游戏开发战略性语言智能体。它引入了一种新方法，在行动和状态集不是预定义而是自然语言设置的情况下使用RL策略。【78，Welfare diplomacy: Benchmarking language model cooperation，2023】设计了“福利外交”，这是零和棋盘游戏《外交》的一个通用和变体，玩家必须在军事征服和国内福利之间取得平衡。它还提供了一个开源基准，旨在帮助提高多智能体AI系统的合作能力。除此之外，还有一项工作【58，Theory of mind for multi-agent collaboration via large language models，2023】在一个多智能体合作文本游戏中测试智能体的心理理论（ToM），即推断他人隐藏心理状态的能力，这对人类社会互动、协作和交流至关重要。【25，Can large language models serve as rational players in game theory? a systematic analysis，2023】全面评估了LLM作为理性玩家的能力，并指出了基于LLM的智能体的弱点，即即使在明确的游戏过程中，智能体在采取行动时仍可能忽略或修改其精炼的信念。

4.2.3 心理学

模拟人类行为与思维。在心理学模拟研究中，与社会模拟类似，利用多个智能体来模拟具有各种特质和思维过程的人类。然而，与社会模拟不同的是，心理学中的一种方法涉及将心理学实验直接应用于这些智能体。这种方法侧重于通过统计方法观察和分析它们多样化的行为。在这里，每个智能体独立运作，不与其他智能体互动，基本上代表了不同的个体。另一种方法更接近于社会模拟，即多个智能体相互互动和交流。在这种情况下，应用心理学理论来理解和分析涌现的行为模式。这种方法有助于研究人际动态和群体行为，为个体心理特质如何影响集体行动提供见解。【71，Understanding the benefits and challenges of using large language model-based conversational agents for mental well-being support，2023】探讨了使用基于LLM的对话智能体进行心理健康支持的心理学意义和结果。它强调需要从心理学角度仔细评估在心理健康应用中使用基于LLM的智能体。【47，The socialai school: Insights from developmental psychology towards artificial socio-cultural agents，2023】介绍了一个名为SocialAI school的工具，用于创建模拟社交互动的互动环境。它借鉴了发展心理学的知识，以理解智能体如何获取、展示和发展诸如共同注意、交流和文化学习等社交技能。【108，Exploring collaboration mechanisms for llm agents: A social psychology view，2023】探讨了具有不同特质和思维模式的LLM智能体如何模仿人类的社会行为，如从众和多数原则。这种将心理学融入对智能体协作的理解，为审视和增强基于LLM的多智能体系统背后的机制提供了新的视角。【2，Using large language models to simulate multiple humans and replicate human subject studies，2023】引入了图灵实验来评估大型语言模型在多大程度上可以模拟人类行为的不同方面。图灵实验通过问答形式复制心理学、经济学和社会学中的经典实验和现象，以模仿实验条件。他们还设计了一个提示，通过改变名字来模拟多个不同个体的反应。通过LLM模拟各种个体，他们表明，更大的模型更忠实地复制了人类行为，但它们也揭示了一种超精度失真，尤其是在基于知识的任务中。

4.2.4 经济学

模拟经济行为体。LLM-MA被用于模拟经济和金融交易环境，主要是因为它可以作为人类的隐式计算模型。在这些模拟中，智能体被赋予禀赋和信息，并设定了预定义的偏好，从而可以探索它们在经济和金融背景下的行为。这类似于经济学家建模“经济人”（homo economicus）的方式，即某些经济理论中将人描述为为自身利益追求财富的理性人【42，Large language models as simulated economic agents: What can we learn from homo silicus?，2023】。有几项研究展示了LLM-MA在模拟经济场景中的多样化应用，包括宏观经济活动、信息市场、金融交易和虚拟城镇模拟。智能体在合作或辩论的去中心化环境中互动。【60，Large language model-empowered agents for simulating macroeconomic activities，2023】利用LLM进行宏观经济模拟，其特点是采用提示工程驱动的智能体，模仿类人决策，从而与基于规则或其他AI智能体相比，增强了经济模拟的真实感。【4，Rethinking the buyer’s inspection paradox in information markets with language agents，2023】在信息市场中探索了购买者检验悖论，揭示了当智能体在购买前临时访问信息时，决策和答案质量得到改善。【62，Tradinggpt: Multi-agent system with layered memory and distinct characters for enhanced financial trading performance，2023】提出了一个用于金融交易的LLM-MA框架，强调了分层记忆系统、辩论机制和个性化的交易角色，从而增强了决策的稳健性。【110，Competeai: Understanding the competition behaviors in large language model-based agents，2023】利用基于LLM的智能体模拟一个拥有餐厅和顾客智能体的虚拟城镇，得出了与社会学和经济学理论相符的见解。这些研究共同阐明了在多样化经济模拟场景中应用LLM的广泛应用和进展。

4.2.5 推荐系统

模拟用户偏好与交互。在推荐系统中使用LLM-MA与在心理学中的使用类似，因为这两个领域的研究都涉及到对认知过程和个性等外在和内在人类因素的考虑【50，Psychology-informed recommender systems: A humancentric perspective on recommender systems，2022】。在推荐系统中使用LLM-MA的一种方法是直接向具有不同特质的多个基于LLM的智能体介绍物品，并对不同智能体的偏好进行统计。另一种方法是将用户和物品都视为智能体，并将用户-物品的交流视为互动，模拟偏好的传播。为了弥合推荐系统中离线指标与现实世界性能之间的差距，Agent4Rec【105，On generative agents in recommendation，2023】引入了一个基于LLM-MA的模拟平台。使用MovieLens-1M数据集初始化了1000个生成式智能体，以模拟推荐环境中的复杂用户互动。Agent4Rec表明，LLM-MA可以有效地模仿真实用户的偏好和行为，为“过滤气泡效应”等现象提供见解，并帮助揭示推荐任务中的因果关系。在Agent4Rec的工作中，智能体被用来模拟用户，它们之间不进行交流。与Agent4Rec的工作不同，【109，Agentcf: Collaborative learning with autonomous language agents for recommender systems，2023】将用户和物品都视为智能体，对它们进行集体优化，以反映和适应现实世界的互动差异。这项工作强调模拟用户-物品互动，并在智能体之间传播偏好，抓住了协同过滤的精髓。

4.2.6 政策制定

模拟决策过程与影响。与游戏和经济场景中的模拟类似，政策制定需要强大的决策能力来应对现实和动态的复杂问题。LLM-MA可用于通过模拟虚拟政府或模拟各种政策对不同社区的影响来模拟政策制定。这些模拟为政策如何制定及其潜在效果提供了宝贵的见解，帮助决策者理解和预测其决策的后果【26，Agent-Based Modeling in Economics and Finance: Past, Present, and Future，2022】。【101，Simulating public administration crisis: A novel generative agent-based simulation system to lower technology barriers in social science research，2023】的研究重点是模拟一个乡镇的水污染危机。它模拟了一个位于岛上的城镇，包括不同智能体的人口结构以及镇长和顾问。在水污染危机模拟中，这项工作深入分析了一个虚拟政府实体可能如何应对这样的公共管理挑战，以及在这场危机中社交网络中的信息传递方式。【42，War and peace (waragent): Large language model-based multi-agent simulation of world wars，2023】引入了WarAgent来模拟关键的历史冲突，为冲突解决和理解提供见解，并具有预防未来国际冲突的潜在应用。

4.2.7 疾病传播模拟

模拟公共卫生事件。利用LLM-MA的社会模拟能力，也可以用来模拟疾病传播。【97，Epidemic modeling with generative agents，2023】最近的研究深入探讨了使用LLM-MA模拟疾病传播。该研究通过各种模拟展示了这些基于LLM的智能体如何能够准确地模仿人类对疾病爆发的反应，包括在病例数增加期间的自我隔离等行为。这些智能体的集体行为反映了流行病中通常见到的多波复杂模式，最终稳定到地方病状态。令人印象深刻的是，它们的行动有助于减缓流行病曲线。【29，Generative agent-based modeling: Unveiling social system dynamics through coupling mechanistic models with generative artificial intelligence，2023】也讨论了流行病传播模拟，并将模拟分解为两部分：代表信息或病毒传播的机械模型（Mechanistic Model）和代表智能体面对病毒时决策过程的决策模型（Decision-Making Model）。

5. 实现工具和资源

5.1 多智能体框架

我们详细介绍三个开源的多智能体框架：MetaGPT【41，Metagpt: Meta programming for multi-agent collaborative framework，2023】、CAMEL【57，Camel: Communicative agents for” mind” exploration of large scale language model society，2023】和AutoGen【99，Autogen: Enabling next-gen llm applications via multi-agent conversation framework，2023】。它们都是利用语言模型通过多智能体协作解决复杂任务的框架，但在方法和应用上有所不同。

MetaGPT 旨在将人类工作流程嵌入到语言模型智能体的操作中，从而减少在复杂任务中经常出现的幻觉问题。它通过将标准操作流程（SOPs）编码到系统中，并采用流水线方法为不同智能体分配特定角色来实现这一点。
CAMEL（Communicative Agent Framework）旨在促进智能体之间的自主合作。它使用一种称为“初始提示”（inception prompting）的新技术来引导对话智能体完成符合人类目标的任务。该框架还可作为生成和研究对话数据的工具，帮助研究人员理解交流型智能体的行为和互动方式。
AutoGen 是一个多功能框架，允许使用语言模型创建应用程序。它的独特之处在于其高度的可定制性，使开发人员能够使用自然语言和代码来编程智能体，定义这些智能体如何互动。这种多功能性使其能够应用于从编码和数学等技术领域到娱乐等面向消费者的各个领域。

最近，【10，Agentverse: Facilitating multi-agent collaboration and exploring emergent behaviors in agents，2023；8，Autoagents: A framework for automatic agent generation，2023】引入了用于动态多智能体协作的框架，而【112，Agents: An open-source framework for autonomous language agents，2023；63，Metaagents: Simulating interactions of human behaviors for llm-based task-oriented coordination via collaborative generative agents，2023；102，Openagents: An open platform for language agents in the wild，2023】则提出了用于构建自主智能体的平台和库，强调它们在任务解决和社交模拟中的适应性。

5.2 数据集和基准

我们在表2中总结了LLM-MA研究中常用的数据集或基准。我们观察到，不同的研究应用使用不同的数据集和基准。在问题解决场景中，大多数数据集和基准用于通过多智能体合作或辩论来评估规划和推理能力。在世界模拟场景中，数据集和基准用于评估模拟世界与现实世界之间的一致性，或分析不同智能体的行为。然而，在某些研究应用中，如用于实验的科学团队操作和经济建模，仍然需要全面的基准。开发此类基准将极大地增强衡量LLM-MA在这些复杂和动态领域中成功和适用性的能力。

表2：LLM-MA研究中常用的数据集和基准。“/”表示数据链接不可用。

6. 挑战与机遇

LLM-MA框架和应用的研究正在迅速推进，带来了许多挑战和机遇。我们确定了几个关键挑战和未来研究的潜在领域。

6.1 向多模态环境推进。以往大多数关于LLM-MA的工作都集中在基于文本的环境中，擅长处理和生成文本。然而，在多模态设置中存在显著的不足，在这些设置中，智能体将与来自多种感官输入的数据进行交互和解释，并生成多种输出，如图像、音频、视频和物理动作。将LLM集成到多模态环境中带来了额外的挑战，例如处理不同类型的数据，以及使智能体能够相互理解并不仅仅对文本信息做出反应。

6.2 解决幻觉问题。幻觉问题是LLM和基于单个LLM的智能体系统中的一个重大挑战。它指的是模型生成事实不正确的文本的现象【44，A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions，2023】。然而，在多智能体设置中，这个问题增加了一层复杂性。在这种场景下，一个智能体的幻觉可能会产生连锁效应。这是由于多智能体系统的互联性，一个智能体的错误信息可能会被网络中的其他智能体接受并进一步传播。因此，在LLM-MA中检测和减轻幻觉不仅是一项关键任务，也带来了一系列独特的挑战。这不仅涉及在单个智能体层面纠正不准确之处，还涉及管理智能体之间的信息流，以防止这些不准确之处在整个系统中传播。

6.3 获取集体智能。在传统的多智能体系统中，智能体通常使用强化学习从离线训练数据集中学习。然而，LLM-MA系统主要从即时反馈中学习，例如与环境或人类的互动，正如我们在第3节中讨论的那样。这种学习方式需要一个可靠的互动环境，而为许多任务设计这样的互动环境会很棘手，限制了LLM-MA系统的可扩展性。此外，当前研究中的主流方法涉及采用记忆和自我进化技术来根据反馈调整智能体。虽然这些方法对单个智能体有效，但它们并未充分利用智能体网络的潜在集体智能。它们孤立地调整智能体，忽略了可以从协调的多智能体互动中产生的协同效应。因此，联合调整多个智能体并实现最优的集体智能仍然是LLM-MA的一个关键挑战。

6.4 扩展LLM-MA系统。LLM-MA系统由多个独立的基于LLM的智能体组成，这对智能体数量的可扩展性构成了重大挑战。从计算复杂度的角度来看，每个基于LLM的智能体（通常建立在像GPT-4这样的大型语言模型之上）都需要大量的计算能力和内存。在LLM-MA系统中扩展这些智能体的数量会显著增加资源需求。在计算资源有限的场景中，开发这些LLM-MA系统将具有挑战性。

此外，随着LLM-MA系统中智能体数量的增加，出现了额外的复杂性和研究机会，特别是在高效的智能体协调、通信以及理解多智能体的扩展定律等领域。例如，随着基于LLM的智能体增多，确保有效协调和通信的复杂性显著增加。正如【19，Multi-agent llm applications — a review of current research, tools, and challenges，2023】所强调的，设计先进的智能体编排（Agents Orchestration）方法变得越来越重要。这些方法旨在优化智能体的工作流程、针对不同智能体的任务分配以及跨智能体的通信模式（如智能体之间的通信约束）。有效的智能体编排有助于智能体之间的和谐运作，最大限度地减少冲突和冗余。此外，探索和定义随着多智能体系统规模扩大而支配其行为和效率的扩展定律，仍然是一个重要的研究领域。这些方面凸显了对创新解决方案的需求，以优化LLM-MA系统，使其既有效又资源高效。

6.5 评估与基准。我们已在表2中总结了目前可用于LLM-MA的数据集和基准。这只是一个起点，远非全面。我们确定了在评估LLM-MA系统和对其性能进行基准测试方面的两个重大挑战。首先，正如【102，Magic: Investigation of large language model powered multi-agent in cognition, adaptability, rationality and collaboration，2023】所讨论的，许多现有研究侧重于评估单个智能体在狭隘定义场景中的理解和推理。这种关注倾向于忽略了作为多智能体系统不可或缺部分的更广泛、更复杂的涌现行为。其次，在多个研究领域，如用于实验操作的科学团队、经济分析和疾病传播模拟，全面基准的开发存在明显不足。这一差距阻碍了在这些多样化和关键领域中准确评估和基准测试LLM-MA系统的全部能力。

6.6 应用及未来展望。LLM-MA系统的潜力远超其当前应用，在金融、教育、医疗保健、环境科学、城市规划等领域的先进计算问题解决方面拥有巨大前景。正如我们所讨论的，LLM-MA系统具备解决复杂问题和模拟现实世界各个方面的能力。虽然当前LLM的角色扮演能力可能存在局限，但LLM技术的持续进步预示着光明的未来。预计将有更复杂的方法论、应用、数据集和基准，为不同研究领域量身定制。此外，还有机会从各种理论视角探索LLM-MA系统，如认知科学【89，Cognitive architectures for language agents，2023】、符号人工智能、控制论、复杂系统和集体智能。这种多方面的研究方法可能有助于在这个快速发展的领域中实现更全面的理解和创新的应用。

A4 实验环境

作为一篇综述性论文，本文并未包含独立的实验环境设置，而是对现有LLM-MA研究所使用的工具、数据集和基准进行了系统性总结。

1. 数据集与基准：
本文在表2中详细列出了LLM-MA研究中常用的数据集和基准。这些资源根据应用场景的不同而有所区别：
* 问题解决场景：主要使用旨在评估多智能体合作或辩论中的规划与推理能力的数据集。例如：
* MMLU, GSM8K, StrategyQA：用于科学辩论场景，评估集体推理能力。
* HumanEval-X, MBPP：用于软件开发，评估代码生成能力。
* ALFWorld, TEACh：用于具身智能体，评估在虚拟环境中的任务完成能力。

世界模拟场景：主要使用旨在评估模拟世界与真实世界的一致性，或用于初始化智能体画像和分析其行为的数据集。例如：
- MovieLens-1M：用于初始化推荐系统模拟中的用户智能体。
- AVALONBENCH, ChatArena：为游戏模拟（如阿瓦隆、狼人杀）提供环境和评估基准。
- SOTOPIA-ENV：用于评估语言智能体的社交智能。
  本文也指出，在科学实验、经济分析和疾病传播模拟等领域，目前仍缺乏全面的基准。

2. 硬件与软件配置：

硬件配置：本文作为一篇综述，没有提供所回顾研究的具体硬件配置（如GPU型号/数量、CPU型号等）。
软件配置：本文总结了几个主流的开源多智能体框架，这些框架是构建LLM-MA系统的基础软件：
- MetaGPT：将标准操作流程（SOPs）编码到系统中，用于结构化的多智能体协作。
- CAMEL：通过“初始提示”技术促进智能体间的自主合作。
- AutoGen：一个高度可定制的框架，允许开发者用自然语言和代码定义智能体及其交互方式。
- 其他新兴框架如 AgentVerse, AutoAgents, Agents, OpenAgents 等也相继被提出，用于支持动态协作和构建自主智能体。

这些工具和资源的总结为研究人员进入LLM-MA领域提供了重要的参考和起点。

A5 结论

基于大型语言模型（LLM）的多智能体已展现出令人振奋的集体智慧，并迅速引起了研究人员日益增长的兴趣。在这篇综述中，我们首先通过从不同方面对LLM-MA系统进行定位、区分和关联，系统地回顾了其发展，这些方面包括智能体-环境接口、通过LLM对智能体进行特征描述、管理智能体通信的策略以及能力获取的范式。我们还总结了LLM-MA在问题解决和世界模拟方面的应用。通过同时重点介绍常用的数据集和基准，并讨论挑战与未来机遇，我们希望这篇综述能为各研究领域的研究人员提供有用的资源，激发未来对基于LLM的多智能体潜力的探索研究。