1. 论文研究目标:Agentic LLMs 要解决什么问题?
1.1 研究目标与实际问题
There is great interest in agentic LLMs, large language models that act as agents. We review the growing body of work in this area and provide a research agenda. Agentic LLMs are LLMs that (1) reason, (2) act, and (3) interact. We organize the literature according to these three categories.
LLMs 的局限性: 传统的 LLMs 主要被设计为“被动”的模型,即接收用户输入 (Prompt) 后给出输出,缺乏自主性和与外部世界交互的能力。这限制了 LLMs 在更复杂和实际场景中的应用。 Prompt 工程的挑战: 传统 LLMs 对 Prompt 的微小变化非常敏感,需要用户进行繁琐的 “Prompt 工程” 才能获得满意的结果。 幻觉问题 (Hallucination): LLMs 生成的内容有时看起来合理,但却与事实不符,即 “幻觉” 问题,这降低了 LLMs 的可靠性。 推理能力不足 (Reasoning): 传统 LLMs 在处理复杂推理任务,如数学应用题时,表现不足。 训练数据瓶颈 (Training Data): LLMs 的性能受训练数据质量和规模的限制,而高质量大规模数据集的获取成本越来越高,进一步提升 LLMs 性能面临数据瓶颈。
1.2 问题的新颖性
Agentic LLMs depend on progress in natural language processing, reasoning models, tool integration, reinforcement learning, agent-based modeling, and social science. At the confluence of these fields many exciting publications have emerged.
1.3 相关研究与领域分类
自然语言处理 (NLP): Agentic LLMs 的基础是 LLMs,NLP 领域的进展直接推动了 Agentic LLMs 的发展。 知识表示与推理 (Knowledge Representation and Reasoning): 为了提升 LLMs 的推理能力,需要结合符号 AI 的方法,例如知识图谱、逻辑推理等。 强化学习 (Reinforcement Learning): 强化学习被用于训练 Agentic LLMs 与环境交互并学习优化策略。 多智能体系统 (Multi-Agent System): 研究多个智能体之间的协作、竞争和交互,是 Agentic LLMs 应用于社会模拟等场景的基础。 机器人学 (Robotics): 将 Agentic LLMs 应用于机器人控制,使其能够理解自然语言指令并执行复杂任务。 工具使用 (Tool Use): 研究如何让 LLMs 学会使用外部工具 (如搜索引擎、计算器、API 等) 来扩展自身能力。 社会科学 (Social Science): 利用 Agentic LLMs 进行大规模社会模拟,研究社会行为、群体动力学和文化演化等问题。
推理 (Reasoning): 关注如何提升 LLMs 的推理、反思和检索能力,以改善决策质量。 行动 (Acting): 关注如何让 LLMs 能够采取行动,例如控制机器人、使用工具,成为有用的助手。 交互 (Interacting): 关注多个 Agentic LLMs 之间的交互,例如协作完成任务、进行社会模拟,研究涌现的社会行为。
We find that works mutually benefit from results in other categories: retrieval enables tool use, reflection improves multi-agent collaboration, and reasoning benefits all categories. We show how the three categories—reasoning-acting-interacting—complement each other, and how they help to generate additional data for pretraining, finetuning, and augmenting inference time behavior, as shown in Figure 1.
1.4 值得关注的研究员
Yoshua Bengio: 深度学习领域的先驱,在语言模型和 Agent-based modeling 方面有深厚积累。 Ilya Sutskever: OpenAI 首席科学家,领导开发了 ChatGPT 等大型语言模型,关注 LLMs 的扩展和 Agentic 能力。 Pieter Abbeel: 机器人学和强化学习领域的专家,研究如何将 LLMs 应用于机器人控制。 Chelsea Finn: 斯坦福大学助理教授,研究机器人学习、元学习和 Agentic AI。 Percy Liang: 斯坦福大学教授,领导 AlpaGas 等开源 LLM 项目,关注 LLMs 的可解释性和可靠性。 Jacob Steinhardt: 加州大学伯克利分校助理教授,研究 Agentic AI 的安全性和对齐问题。 Shunyu Yao: 普林斯顿大学博士生,在 Chain-of-Thought 和 Tree-of-Thoughts 等推理方法方面有重要贡献。 Anca Dragan: 加州大学伯克利分校副教授,研究人机交互和 Agentic AI 的伦理问题。
2. 论文提出的新思路、方法或模型:Agentic LLMs 的关键是什么?
2.1 关键思路与方法
多步推理 (Multi-Step Reasoning): 借鉴人类解决复杂问题的 step-by-step 思路,论文重点介绍了 Chain of Thought (CoT) 和 Tree of Thoughts (ToT) 等方法。 Chain of Thought (CoT, 思维链): 通过在 Prompt 中引导 LLM 逐步思考,生成中间推理步骤,显著提升了 LLM 在复杂推理任务 (如数学应用题) 上的表现。 论文引用了 Wei et al., 2022b 的研究,指出 CoT 方法的关键在于合适的 Prompt 设计,例如在 Prompt 中加入 "Let's think step by step" 这样的引导语。 Wei et al. [2022b] showed in their Chain of Thought paper that with the right prompt the LLM follows such intermediate steps. When the LLM is prompted to first rephrase information from the question as intermediate reasoning steps in its answer, the LLM performed much better than when it was prompted to answer a math problem directly... 图 4 论文中 CoT Prompting 的例子: 
(图中内容已在您提供的论文中,请自行查找对应 Figure 4) Tree of Thoughts (ToT, 思维树): CoT 方法只探索单一的推理路径,而 ToT 方法则扩展到探索多条可能的推理路径,并通过外部搜索算法 (如广度优先搜索、深度优先搜索) 进行回溯和选择,更系统地解决复杂推理问题。 论文引用了 Yao et al., 2024 的研究,ToT 方法结合了生成 Prompt、评估 Prompt 和外部搜索算法,形成一个系统的树状搜索推理框架。 This method is chosen in the Tree of Thoughts approach [Yao et al., 2024]. Here, an external control algorithm is created, that calls the model, each time with a different prompt, so that it follows a tree of reasoning steps. When one reasoning path has been traversed, the search backtracks, and tries an alternative.
自反思 (Self-Reflection): 让 LLMs 具备反思自身答案的能力,通过评估和改进自身结果,提升答案质量和可靠性。 论文重点介绍了 Self-Refine 和 Reflexion 等方法。 Self-Refine: 通过迭代地让 LLM 生成答案、评估答案并根据评估结果改进答案,形成一个自迭代改进的循环。论文引用了 Madaan et al., 2023 的 Self-Refine 方法,该方法使用了三个不同的 Prompt (初始生成 Prompt, 反馈 Prompt, 精炼 Prompt) 来引导 LLM 完成自反思过程。 图 7 论文中 Self-Refine 方法的流程图: 
(图中内容已在您提供的论文中,请自行查找对应 Figure 7) Reflexion: 借鉴强化学习的思想,让 Agentic LLMs 通过反思过去的失败经验来改进未来的行动。 论文引用了 Shinn et al., 2024 的 Reflexion 方法,该方法使用了 Actor-LLM, Evaluator-LLM 和 Reflector-LLM 三个 LLM 组件,构成一个自反思的智能体架构。 图 9 论文中 Reflexion 方法的架构图: 
(图中内容已在您提供的论文中,请自行查找对应 Figure 9)
检索增强 (Retrieval Augmentation): 为了解决 LLMs 知识更新滞后和缺乏特定领域知识的问题,研究人员提出了检索增强方法,即 Retrieval-Augmented Generation (RAG)。 RAG 方法允许 LLMs 在生成答案时,从外部知识库 (如 Wikipedia, 数据库等) 检索相关信息,并将检索到的信息融入到答案生成过程中,从而提升答案的及时性和准确性。论文引用了 Lewis et al., 2020 的研究,该研究将预训练 LLMs 与 Wikipedia 知识库结合,通过密集向量索引技术实现高效检索,并进行端到端微调。
世界模型 (World Models): 让 LLMs 学习构建对外部世界的抽象模型,用于预测环境状态变化和规划行动。 论文引用了 Ha and Schmidhuber, 2018, Hafner et al., 2020 等在强化学习中使用世界模型的研究,以及 Ge et al., 2024, Tang et al., 2024 等将 LLMs 与世界模型结合的最新工作。 World models have been successful in learning robotic movement in complex environments, to play Atari video games, and to act in open world games such as MineCraft [Hafner et al., 2020, 2023]. World models can also be trained effectively with LLMs [Ge et al., 2024]. 视觉-语言-动作模型 (Vision-Language-Action Models, VLAs): 将视觉信息和动作信息融入到 LLMs 中,使其能够理解视觉场景并执行相应的动作,例如机器人控制。 论文引用了 Radford et al., 2021 (CLIP), Shridhar et al., 2022 (CLIPort), Chiang et al., 2024, Brohan et al., 2023, Yang et al., 2025 等 VLA 模型的代表性研究。 Going a step further, vision-language-action models (VLAs) include actions: they are trained on robotic sequences, where they can perform actions in a visual scene, to achieve a goal that is expressed in a language prompt [Zitkovich et al., 2023]. 工具使用 (Tool Use): 赋予 LLMs 使用外部工具的能力,使其能够扩展自身的功能和知识范围。 论文重点介绍了 Toolformer (Schick et al., 2023), ToolBench (Qin et al., 2023), EasyTool (Yuan et al., 2024b) 等工具使用框架。 When their application programming interface (API) is known, LLMs can be integrated easily with external tools: an API is just another language to learn. Agentic LLMs must be trained to decide when and how to utilize external tools, depending on the task [Shen et al., 2024]. 图 13 论文中多 LLM Agent 框架示意图 (Planner, Caller, Summarizer): 
(图中内容已在您提供的论文中,请自行查找对应 Figure 13)
2.2 与之前方法的特点和优势
更强的自主性 (Autonomy): Agentic LLMs 不仅仅是被动地响应 Prompt,而是能够主动思考、规划和执行行动,具备更高的自主性。 更强的推理能力 (Reasoning Ability): 通过多步推理、自反思和检索增强等方法,Agentic LLMs 在复杂推理任务上的表现显著提升。 更强的交互能力 (Interaction Ability): Agentic LLMs 能够与外部环境 (包括真实世界和虚拟世界) 进行交互,获取信息、执行动作并接收反馈。 更广的应用范围 (Application Scope): Agentic LLMs 可以应用于更广泛的领域,例如机器人控制、智能助手、社会模拟等。 持续学习能力 (Continuous Learning Ability): Agentic LLMs 通过与环境交互生成新的数据,可以用于持续学习和改进自身性能,克服训练数据瓶颈。
更强的自然语言理解能力 (Natural Language Understanding): 基于 LLMs 的 Agentic LLMs 能够更好地理解和处理自然语言指令和信息。 更强的泛化能力 (Generalization Ability): 基于 LLMs 的 Agentic LLMs 通常具有更强的泛化能力,能够适应更复杂和多变的环境。 端到端学习能力 (End-to-End Learning): Agentic LLMs 可以通过端到端的方式进行训练,无需人工设计复杂的规则或知识库。
3. 论文实验验证:Agentic LLMs 的有效性如何?
推理能力评估: 引用 Wei et al., 2022b, Yao et al., 2024, Madaan et al., 2023, Shinn et al., 2024, Guo et al., 2025 等论文的实验结果,表明 CoT, ToT, Self-Refine, Reflexion 等方法在数学应用题 (GSM8K, MultiArith), 代码生成 (Code Generation), 问答 (Question Answering) 等基准测试 (Benchmarks) 上取得了显著的性能提升。 例如,MathPrompter (Imani et al., 2023) 在 MultiArith 数据集上取得了 state-of-the-art 的结果 (从 78.7% 提升到 92.5%)。 Self-Refine (Madaan et al., 2023) 在 grade school math questions 数据集上取得了 95% 的准确率。 Reflexion (Shinn et al., 2024) 在 Chess, Connect Four, Hex 等棋类游戏中取得了 Grandmaster-level 的 performance。
工具使用能力评估: 引用 Schick et al., 2023 (Toolformer), Qin et al., 2023 (ToolBench), Yuan et al., 2024b (EasyTool), Tang et al., 2023 (ToolAlpaca), Zhuang et al., 2023 (ToolQA) 等论文的实验结果,表明 Toolformer, ToolBench, EasyTool 等工具使用框架能够有效提升 LLMs 的工具调用能力和任务完成能力。 ToolBench (Qin et al., 2023) 包含了 16,464 个 APIs, 为评估 LLMs 的工具使用能力提供了丰富的benchmark。 SWE-Agent (Yang et al., 2024b) 在 HumanEvalFix 等代码 benchmark 上取得了超过 80% 的 success rate。
交互能力评估: 引用 Park et al., 2023 (Generative Agents), Mao et al., 2023 (Alympics), Xu et al., 2024a (MAgIC), Duan et al., 2024 (GTBench), Hou et al., 2024 (EgoSocialArena) 等论文的实验结果,表明 Agentic LLMs 在社会模拟、游戏博弈、人机对话等交互场景中展现出强大的能力。 Generative Agents (Park et al., 2023) 模拟了 25 个 Agentic LLMs 在虚拟小镇中的社交互动,展现了涌现的社会行为。 Alympics (Mao et al., 2023) 提供了复杂策略博弈的平台,用于评估 Agentic LLMs 的策略决策能力。 GTBench (Duan et al., 2024) 是 Game Theory benchmark, 用于评估 Agentic LLMs 在不同博弈场景下的表现。
4. 论文贡献与业界影响:Agentic LLMs 的价值和机会
4.1 论文贡献
系统性地梳理了 Agentic LLMs 领域的研究进展: 论文对近年来大量的 Agentic LLMs 相关研究进行了分类、总结和分析,为读者提供了一个全面而清晰的领域概览。 提出了 Agentic LLMs 的分类框架 (Reasoning-Acting-Interacting): 这个框架有助于理解 Agentic LLMs 的核心构成和研究方向,也为未来的研究提供了组织思路。 指出了 Agentic LLMs 的关键技术和挑战: 论文深入探讨了 Agentic LLMs 在推理、行动和交互方面面临的技术挑战,并总结了解决这些挑战的有效方法。 展望了 Agentic LLMs 的未来发展趋势: 论文基于对现有研究的分析,提出了 Agentic LLMs 未来的研究方向和发展趋势,例如持续学习、安全性和社会影响等。 为 Agentic LLMs 的研究提供了 Research Agenda: 论文在第五节 "General Discussion and Research Agenda" 中,明确提出了 Agentic LLMs 未来的 Research Agenda, 为研究人员提供了宝贵的参考。
4.2 业界影响与商业机会
更智能的 AI 产品和服务: Agentic LLMs 将使 AI 产品和服务变得更加智能、自主和实用,能够更好地满足用户需求。 例如: 更强大的智能助手: Agentic LLMs 可以打造更智能的虚拟助手,不仅能回答问题,还能主动执行任务,例如预订机票酒店、管理日程、提供个性化建议等。 更智能的机器人: Agentic LLMs 可以赋予机器人更强的理解能力和行动能力,使其能够应用于更复杂的场景,例如智能制造、物流仓储、医疗健康等。 更智能的软件工具: Agentic LLMs 可以作为各种软件工具的智能内核,提升工具的自动化水平和用户体验。
新的应用场景和商业模式: Agentic LLMs 的出现将催生新的应用场景和商业模式,例如: AI 驱动的科学研究: Agentic LLMs 可以辅助科学家进行文献检索、数据分析、实验设计等工作,加速科学发现进程。 AI 驱动的金融交易: Agentic LLMs 可以进行市场分析、风险评估、自动交易等操作,提升交易效率和收益。 AI 驱动的医疗诊断: Agentic LLMs 可以辅助医生进行疾病诊断、制定治疗方案、生成医疗报告,提升医疗水平和效率。 AI 驱动的教育: Agentic LLMs 可以提供个性化教育辅导、智能评估、学习资源推荐等服务,提升教育质量和效率。 社会模拟与政策制定: Agentic LLMs 可以用于构建大规模社会模拟系统,辅助政府和企业进行政策分析和决策制定。
4.3 工程师的关注点
Agentic LLMs 的核心技术: 深入理解 Agentic LLMs 的核心技术,例如多步推理、自反思、检索增强、工具使用、世界模型、VLA 模型等,掌握这些技术的原理和实现方法。 Agentic LLMs 的开源框架和工具: 关注开源社区中 Agentic LLMs 相关的框架和工具,例如 AgentVerse, CAMEL, ToolBench, EasyTool 等,学习如何使用这些工具构建 Agentic LLMs 应用。 Agentic LLMs 的应用场景和商业机会: 结合自身的技术背景和兴趣,探索 Agentic LLMs 在医疗、医疗信息化、人工智能技术等领域的应用场景和商业机会。 特别是在医疗健康领域,Agentic LLMs 在智能诊断、医疗报告生成、患者管理等方面具有巨大的潜力。 Agentic LLMs 的安全性和可靠性: 关注 Agentic LLMs 的安全性和可靠性问题,例如幻觉问题、安全漏洞、伦理风险等,研究如何解决这些问题,确保 Agentic LLMs 的安全可控应用。 Agentic LLMs 的评估和测试: 了解 Agentic LLMs 的评估指标和测试方法,掌握如何有效评估和验证 Agentic LLMs 的性能和效果。
5. 未来研究方向与挑战:Agentic LLMs 的发展前景
5.1 未来研究方向
训练数据 (Training Data): 探索如何利用 Agentic LLMs 与环境交互生成的新数据,用于持续预训练和微调 LLMs, 突破训练数据瓶颈,提升 LLMs 的语言和推理能力。 论文强调 Finetune with inference time reasoning data (使用推理时生成的数据进行微调) 是一个重要的研究方向。 幻觉问题和行为稳定性 (Hallucination and Stable Behavior): 研究如何有效缓解 Agentic LLMs 的幻觉问题,并确保在多步推理和复杂交互过程中的行为稳定性。 论文提出了 Use Self Verification (使用自我验证) 和 Use Mechanistic Interpretability (使用机制可解释性) 等方法。 Agent 行为的规模化 (Agent Behavior at Scale): 研究如何扩展 Agentic LLMs 的规模,使其能够处理更复杂和更大规模的社会模拟和交互场景。 论文提出了 Scalable simulation infrastructure, role playing (可扩展的模拟基础设施和角色扮演) 等方向。 自反思 (Self Reflection): 深入研究 Agentic LLMs 的自反思机制,探索更高级的元认知 (Metacognition) 能力,例如思考自身思考过程的能力。 论文提出了 In-model self reflection and metareasoning (模型内部的自反思和元推理) 和 Metacognition, personality (元认知和人格) 等研究方向。 自动化科学发现 (Automated Scientific Discovery): 探索如何利用 Agentic LLMs 辅助甚至自动化科学研究过程,例如假设生成、实验设计、数据分析、论文撰写等。 论文提出了 Automated Scientific Discovery (自动化科学发现) 的研究方向。 安全性 (Safety): 持续关注 Agentic LLMs 的安全性和可靠性问题,例如责任归属、隐私保护、公平性等,确保 Agentic LLMs 的安全可控应用。 论文提出了 Assistants: Responsibility, liability (助手的责任和义务) 和 Privacy, fairness of data (数据隐私和公平性) 等安全相关的研究方向。
5.2 新技术与投资机会
更高效的 LLMs 训练方法: 基于 Agentic 交互数据的持续学习方法,有望降低 LLMs 的训练成本,并提升性能。 更强大的推理引擎: CoT, ToT, Self-Refine, Reflexion 等推理增强技术将不断发展,为各种应用提供更可靠的推理能力。 更智能的工具集成平台: ToolBench, EasyTool 等工具集成平台将不断完善,为 Agentic LLMs 提供更丰富的工具生态系统。 更逼真的世界模型和 VLA 模型: 世界模型和 VLA 模型将不断进步,使 Agentic LLMs 能够更好地理解和操纵物理世界。 更安全的 Agentic LLMs 安全防护技术: 针对 Agentic LLMs 的安全漏洞和伦理风险,将涌现出新的安全防护技术和方法。 Agentic LLMs 在各行业的应用解决方案: 在医疗、金融、教育、科研等领域,基于 Agentic LLMs 的创新应用将不断涌现,带来巨大的商业价值。
专注于 Agentic LLMs 核心技术研发的公司和团队。 提供 Agentic LLMs 基础设施和工具平台的公司。 将 Agentic LLMs 应用于特定行业 (如医疗、金融) 的解决方案提供商。 提供 Agentic LLMs 安全性和可靠性保障的公司。
6. Critical Thinking 视角:论文的不足与缺失
文献选择的偏向性: 论文主要关注 LLM-based 的 Agentic 方法,对于非 LLM-based 的 Agent 技术 (例如传统的符号 AI 方法、强化学习 Agent 等) 涉及较少,可能存在一定的 selection bias (选择偏差)。 对部分研究的深度不够: Survey 论文的篇幅有限,对一些重要的研究方向和方法 (例如强化学习在 Agentic LLMs 中的应用、社会模拟的复杂性等) 的深入探讨还不够充分,读者可能需要查阅更多相关文献才能获得更全面的理解。 缺乏定量分析和对比: 论文主要以定性分析为主,对于不同 Agentic LLMs 方法的性能优劣和适用场景,缺乏更系统的定量分析和对比。 虽然表格中列出了一些指标,但缺乏更深入的 comparative analysis (对比分析)。 对未来挑战的讨论可以更深入: 虽然论文展望了 Agentic LLMs 的未来发展方向和挑战,但对于一些关键挑战 (例如 Agentic LLMs 的长期安全性、与人类价值观的对齐、对社会伦理的影响等) 的讨论可以更深入和细致。 对负面影响和风险的讨论相对较少: 论文提到了 Agentic LLMs 的安全性和可靠性问题,但对于 Agentic LLMs 可能带来的负面影响和风险 (例如失业风险、社会不公平性加剧等) 的讨论相对较少,可以进一步加强。
Agentic LLMs 的 “智能” 水平: 虽然 Agentic LLMs 在某些任务上取得了显著进步,但其 “智能” 水平与人类智能相比仍有很大差距。 例如,Agentic LLMs 的推理能力、常识知识、创造力、情感理解等方面仍存在局限性。 需要进一步研究如何提升 Agentic LLMs 的 “真 正的 “智能” 还有待进一步考察,不能过分夸大 Agentic LLMs 的能力,要保持理性的期待和审慎的态度。社会影响的复杂性: Agentic LLMs 的发展将对社会产生复杂而深远的影响,既有积极的方面 (例如提升效率、改善生活质量),也可能带来负面的方面 (例如失业、加剧不平等、伦理困境)。 需要对 Agentic LLMs 的社会影响进行更全面和深入的评估和预测,并制定相应的应对策略。
总而言之,这篇论文是一篇高质量的 Survey,为我们理解 Agentic LLMs 领域提供了很好的框架和视角。但作为读者,我们需要保持 Critical Thinking 的精神,辩证地看待论文的结论和展望,并持续关注该领域的最新发展,才能更准确地把握 Agentic LLMs 的未来趋势。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment