Digital Health Insider: LLM Agents 构建代理工具

工具的运用使得大型语言模型（LLM）能够成为强大的智能体，通过动态地调用外部软件组件来执行复杂的多步骤任务。然而，这些工具必须预先由人类开发者实现，这限制了 LLM 智能体在需要大量专业化工具的领域（例如生命科学和医学）中的应用。受科学研究及其代码公开化趋势的启发，我们提出了 TOOLMAKER，一种新颖的智能体框架，能够自主地将附带代码的论文转化为与 LLM 兼容的工具。对于给定的简短任务描述和代码库 URL，TOOLMAKER 能够自主安装所需依赖项，并生成执行任务的代码，并通过闭环自纠错机制迭代诊断并修正错误。为了评估我们的方法，我们构建了一个基准测试，包含 15 项多样且复杂的计算任务，涵盖医疗和非医疗领域，并配备超过 100 个单元测试，以客观评估工具的正确性和鲁棒性。 TOOLMAKER 能够正确实现 80% 的任务，显著优于当前最先进的软件工程智能体。因此，TOOLMAKER 是朝着完全自主的、基于智能体的科学工作流程迈出的重要一步。我们的代码和基准测试可在 https://github.com/KatherLab/ToolMaker 获取。

1. 论文研究目标：自主工具创建，赋能科研工作流

这篇文章的核心研究目标是让大型语言模型（LLMs）能够自主创建和使用工具（tools），从而克服现有 LLM Agent 在面对复杂任务时对预定义工具的依赖。这旨在解决一个在医疗、生命科学等高度专业化领域尤为突出的实际问题：

Tool use has turned large language models (LLMs) into powerful agents that can perform complex multi-step tasks by dynamically utilising external software components. However, these tools must be implemented in advance by human developers, hindering the applicability of LLM agents in domains which demand large numbers of highly specialised tools, like in life sciences and medicine.

现有问题: 当前的 LLM Agent 虽然可以通过使用工具来完成复杂任务，但这些工具必须由人类开发者预先构建、集成。这在需要大量专业化工具的领域（如生命科学和医学）限制了 LLM Agent 的应用范围。

是否是新问题: 在一定程度上，这是一个新的问题。 虽然之前的研究已经探索了如何让 LLM 使用工具，但主要集中在如何有效地利用人工构建的工具（tool learning），而本文关注的是如何让 LLM 自主创建工具（tool creation），动态扩展自身能力。

科学假设: 这篇文章的核心科学假设可以归纳为：LLM Agent 能够通过解析科学论文及其代码仓库，自主生成与 LLM 兼容的工具，从而执行复杂的科研任务。 更具体地说，作者希望验证他们提出的 TOOLMAKER 框架能够有效地实现这一目标。

相关研究和归类:

这篇文章属于 LLM Agent 和 自主工具创建 的交叉领域。相关的研究可以归类为：

LLM 工具使用 (Tool Use): 研究如何让 LLM 更好地利用人类预先构建的工具，例如 Toolformer [1], ChatGPT Plugins。

LLM Agent: 研究如何构建能够进行多步骤推理、规划和执行复杂任务的 LLM Agent，例如 AutoGPT, AgentMD [2], OpenHands [3]。

自主工具创建 (Autonomous Tool Creation): 研究如何让 Agent 自主生成工具，例如 CRAFT [4], CREATOR [5], LATM [6]。然而，这些早期方法生成的工具通常较为简单，且缺乏与操作系统深层次的交互能力。

领域内值得关注的研究员:

根据论文引用和相关领域的研究热点，以下研究员值得关注：

Jakob N. Kather: 本文的通讯作者之一，在医学图像分析、计算病理学和 AI 应用于医疗领域有深入研究，领导 Kather Lab。

Ognjen Arandjelović: 本文作者之一，在计算机视觉、机器学习和 Agent 技术领域有贡献。

Researchers from OpenAI, Google, Anthropic: 开发和推动 LLM 及 Agent 技术发展的核心机构，如 Ilya Sutskever, Sam Altman, Dario Amodei 等。

Authors of cited papers: 论文中引用的工具使用、Agent 和自主工具创建相关论文的作者，例如 Llama Team, Bran et al., Schick et al., Yuan et al., Qian et al. 等。

2. 论文提出的新思路、方法或模型：TOOLMAKER 框架与闭环自纠正机制

论文的核心创新在于提出了 TOOLMAKER 框架。这是一个自主的 Agent 框架，能够将包含代码的科学论文转化为与 LLM 兼容的工具。

Towards this goal, we propose TOOLMAKER, an agentic framework that autonomously generates LLM-compatible tools from scientific papers and their associated code repositories, bypassing the need for human intermediaries to manually set up, install, and adapt them to fit the requirements of their applications.

TOOLMAKER 解决方案的关键:

最小化的工具定义 (Minimal Tool Definition): TOOLMAKER 只需要用户提供 任务描述 (task description)、代码仓库的 GitHub URL 和 输入参数列表及示例，即可启动工具创建过程。这种简洁的定义降低了用户的使用门槛。(如图 2 所示)

To do so, we require a minimal tool definition (see Figure 2, top), consisting of: 1) a concise textual description of the task, 2) GitHub URL of the associated repository, and 3) a list of required input arguments, including an example value for each argument.

两阶段工作流 (Two-stage Workflow): TOOLMAKER 的工作流分为两个阶段：

环境搭建 (Environment Setup): 生成 Docker 容器 (Docker container)，作为工具运行的 “快照” 环境，保证工具的可复现性。

工具实现 (Tool Implementation): 生成 Python 函数 (Python function)，实现用户期望的任务逻辑。

闭环自纠正机制 (Closed-loop Self-Correction Mechanism): TOOLMAKER 在工具实现阶段采用闭环迭代的方式，不断 诊断错误 (diagnose error), 修复错误 (rectify errors), 重新实现 (re-implement)，直到工具能够成功执行并满足任务要求。(如图 3 所示)

TOOLMAKER autonomously installs required dependencies and generates code to perform the task, using a closed-loop self-correction mechanism to iteratively diagnose and rectify errors.

与之前方法的特点和优势:

与之前的自主工具创建方法（CRAFT, CREATOR, LATM）相比，TOOLMAKER 具有以下特点和优势 (如 Table 1 所示):

更强的错误处理能力 (Error Handling): TOOLMAKER 具备强大的错误诊断和修复能力，能够处理环境配置、代码缺陷等多种类型的错误，这得益于其闭环自纠正机制。

操作系统交互能力 (OS Interaction): TOOLMAKER 能够与操作系统进行深层次的交互，例如 运行 bash 命令 (run bash commands)、读写文件 (read/write files)、网页浏览 (web browsing) 等，这使得它能够处理更复杂的任务，例如安装依赖库、下载模型权重等。

处理复杂任务的能力 (Complex Tasks): TOOLMAKER 能够处理需要安装和使用外部依赖库（例如 Python 库、模型权重）的复杂任务，而之前的工具创建方法主要局限于生成简单的 Python 函数。

Complex tasks require installing and using external dependencies (e.g. libraries, model weights).

总结: TOOLMAKER 的关键创新在于其 端到端的自主性 和 强大的自纠正能力。它不仅仅是生成代码，更重要的是能够 构建工具运行所需的完整环境，并在出现问题时进行 自主诊断和修复，这使其能够处理远比之前方法更复杂、更实用的任务。

3. 实验验证及结果分析：TM-BENCH 基准测试与显著性能提升

论文通过引入 TM-BENCH 基准测试来验证 TOOLMAKER 方法的有效性。

TM-BENCH 基准测试:

任务多样性 (Task Diversity): TM-BENCH 包含 15 个多样化的计算任务，涵盖医学（病理学、放射学、基因组学、蛋白质组学）和非医学领域（LLM、3D 视觉）。这些任务来自真实的科研场景，具有一定的复杂性和代表性。

TM-BENCH, a benchmark comprising 15 diverse tasks across various medical disciplines (pathology, radiology, genomics, proteomics), as well as non-medical fields, e.g. LLMs and 3D vision.

真实科研环境 (Open-ended Environment): TM-BENCH 模拟真实的科研环境，不预先安装任何依赖 (no pre-installed dependencies)，要求 Agent 从零开始完成环境搭建、代码实现、测试和调试等完整流程。

TOOLMAKER operates in a fully open-ended environment. Tasks in our benchmark encompass the entire workflow: downloading resources, managing and resolving dependency issues, reading through large codebases, and implementing, testing, and debugging code.

客观评估 (Objective Assessment): TM-BENCH 为每个任务设计了 超过 100 个单元测试 (unit tests)，用于客观评估工具的 正确性 (correctness) 和 鲁棒性 (robustness)。

实验设计:

实验将 TOOLMAKER 与 OpenHands [3] (一种先进的软件工程 Agent) 进行对比。OpenHands 在 SWE-bench 基准测试上取得了领先的性能。作者将 OpenHands 适配到 “论文仓库 -> LLM 工具” 的场景，并与 TOOLMAKER 在 TM-BENCH 上进行比较。

实验数据和结果:

Table 2 展示了 TOOLMAKER 和 OpenHands 在 TM-BENCH 上的性能对比。关键数据如下：

模型	正确实现任务数 (15 个任务)	平均每个工具的成本	平均每个工具的操作数
TOOLMAKER	12/15 (80%)	$0.94	21.8
OpenHands	3/15 (20%)	$0.15	7.5

关键结果分析:

TOOLMAKER 显著优于 OpenHands: TOOLMAKER 正确实现了 80% 的任务，而 OpenHands 仅为 20%。这表明 TOOLMAKER 在自主工具创建方面具有显著的优势。

TOOLMAKER significantly outperforms Open-Hands, achieving an accuracy of 80% (correctly implementing 12/15 tasks) while OpenHands was only able to correctly implement 20% (3/15 tasks).

TOOLMAKER 能够处理更复杂的任务: OpenHands 能够正确实现的工具往往是 TM-BENCH 中较为简单的任务，而对于需要多步骤、复杂依赖的任务，OpenHands 则难以胜任。TOOLMAKER 能够成功实现例如 stamp_train_classification_model 这样需要多步骤、依赖 STAMP 软件的任务，证明了其处理复杂任务的能力。

自纠正机制的有效性: TOOLMAKER 在创建复杂工具时，通常需要多次 自纠正迭代 (self-correcting iterations)，例如 stamp_train_classification_model 任务需要 9 次迭代，执行 33 个操作。这表明闭环自纠正机制在解决复杂问题中发挥了关键作用。

成本与效率: TOOLMAKER 平均每个工具的成本和操作数高于 OpenHands，这主要是因为 TOOLMAKER 为了保证工具的正确性和鲁棒性，进行了更多的尝试和迭代。虽然成本略高，但考虑到其性能的显著提升，以及能够解决更复杂的问题，TOOLMAKER 的效率和价值更高。

实验结果是否支持科学假设:

实验结果有力地支持了论文的科学假设。 TOOLMAKER 在 TM-BENCH 上的出色表现证明了 LLM Agent 能够通过自主分析科学论文和代码仓库，生成有效的工具来解决复杂的科研任务。 80% 的任务成功率显著高于基线模型，验证了 TOOLMAKER 框架的有效性和创新性。

4. 论文贡献、业界影响、应用场景与商业机会

论文的核心贡献:

提出了 TOOLMAKER 框架: 一个用于自主创建 LLM 兼容工具的全新 Agent 框架，克服了现有 LLM Agent 对预定义工具的依赖，尤其适用于专业化程度高的领域。

构建了 TM-BENCH 基准测试: 一个包含 15 个多样化科研任务、超过 100 个单元测试的基准，用于客观评估自主工具创建方法的性能，填补了该领域缺乏标准评估基准的空白。

实验证明了 TOOLMAKER 的有效性: 实验结果表明 TOOLMAKER 显著优于现有方法，在自主工具创建的正确率和复杂任务处理能力方面取得了突破。

论文的业界影响:

降低 AI 工具开发的技术门槛: TOOLMAKER 能够自主生成工具，有望大幅降低 AI 工具开发的技术门槛，使更多非技术背景的科研人员和工程师能够便捷地利用 AI 技术解决实际问题。

加速科研工作流的自动化: TOOLMAKER 为构建 全自动化的科研工作流 (fully autonomous agent-based scientific workflows) 迈出了重要一步，有望加速科研创新进程，提高科研效率。

推动 LLM Agent 在专业领域的应用: TOOLMAKER 解决了 LLM Agent 在医疗、生命科学等专业领域应用面临的工具瓶颈问题，为其在这些领域的深入应用奠定了基础。

潜在的应用场景和商业机会:

虚拟科学家 (Virtual Scientist): 将 TOOLMAKER 应用于科研领域，构建能够辅助甚至替代人类科学家完成部分科研工作的 虚拟科学家 或 AI 科研助手，例如自动化文献综述、实验设计、数据分析、假设验证等。 (如图 1 所示)

We envision a future where agents posess dynamic toolsets that can be expanded at runtime. Tool creation, studied here, is a crucial step towards this goal.

生物医药研发 (Biopharmaceutical R&D): 在药物发现、疾病诊断、个性化医疗等生物医药研发领域，利用 TOOLMAKER 快速构建和部署各种 AI 工具，加速研发进程，降低研发成本。

医疗信息化 (Medical Informatics): 将 TOOLMAKER 与医疗信息化系统结合，构建智能化的医疗辅助决策系统、疾病风险预测工具、诊疗方案生成工具等，提升医疗服务水平和效率。

专业领域知识库构建: 利用 TOOLMAKER 自动从专业领域的论文和代码中提取知识，构建专业领域的 AI 工具库，为各行各业提供定制化的 AI 解决方案。

作为工程师应该关注的方面:

TOOLMAKER 框架的技术细节: 深入理解 TOOLMAKER 的工作原理、框架结构、自纠正机制等技术细节，掌握其核心技术。

TM-BENCH 基准测试: 了解 TM-BENCH 的任务类型、评估指标和测试方法，学习如何设计和评估自主工具创建系统。

LLM Agent 和工具使用的最新进展: 持续关注 LLM Agent、工具使用和自主工具创建领域的最新研究进展，把握技术发展趋势。

潜在的应用场景和商业模式: 积极探索 TOOLMAKER 技术在医疗、生命科学等领域的应用场景和商业模式，发掘潜在的商业机会。

伦理和社会影响: 关注自主工具创建技术可能带来的伦理和社会影响，例如潜在的误用风险、安全性和可靠性问题，在技术发展的同时，也要关注伦理规范和安全保障。

5. 未来研究方向与挑战：持续探索与新的技术/投资机会

论文指出了未来研究方向和挑战：

提升处理复杂科研工作流的能力: 将 TOOLMAKER 集成到更广泛的自主科研系统中，使其能够处理端到端的科研流程，包括物理实验等环节。

Future work will focus on integrating TOOLMAKER into broader autonomous research systems, potentially enabling end-to-end scientific discovery pipelines that operate with minimal human intervention.

增强对非理想代码仓库的处理能力: 当前的 TOOLMAKER 假设代码仓库结构良好、文档完善。未来的研究需要提升其处理结构不良、文档不全的代码仓库的能力。

Our framework assumes that the referenced code repositories are reasonably well-structured, up-to-date, and documented. In practice, however, open-source repositories may have poor documentation or incomplete implementation details, making them challenging to install or integrate automatically.

解决伦理和社会风险: 针对自主工具创建技术在生命科学领域可能带来的潜在风险（例如生物武器、危险化合物），需要开发更完善的安全措施和伦理指南。

We acknowledge that automated tool creation in life sciences carries significant risks that require careful consideration. The ability to autonomously implement complex biological and chemical tools could potentially be misused for creating harmful agents or bioweapons.

可能催生的新技术和投资机会:

更强大的自主工具创建框架: 在 TOOLMAKER 基础上，进一步提升工具创建的智能化、自动化水平，例如更智能的错误诊断和修复机制、更强大的跨领域适应能力、更友好的用户交互界面。

专业领域的 AI 工具平台: 基于自主工具创建技术，构建面向特定专业领域的 AI 工具平台，例如生物医药 AI 工具平台、材料科学 AI 工具平台等，为领域用户提供便捷的 AI 工具定制和使用服务。

科研工作流自动化解决方案: 将自主工具创建技术与现有科研工作流管理系统集成，提供端到端的科研工作流自动化解决方案，提升科研机构和企业的研发效率。

AI 安全和伦理方向: 针对自主工具创建技术带来的安全和伦理风险，开发相关的安全检测、风险评估、伦理审查等技术和工具，保障 AI 技术的健康发展。

投资机会: 未来可能出现专注于自主工具创建技术研发、专业领域 AI 工具平台构建、科研工作流自动化解决方案提供的初创公司和技术型企业。同时，AI 安全和伦理方向的技术和服务也将成为重要的投资领域。

6. Critical Thinking 视角下的论文不足与缺失

从 Critical Thinking 的角度来看，这篇论文虽然具有创新性和价值，但也存在一些不足和缺失：

基准测试的局限性 (Limitations of Benchmark): TM-BENCH 虽然比之前的基准更具挑战性，但仍然是 人为设定的任务集合 (curated dataset)，可能无法完全代表真实世界中科研任务的复杂性和多样性。基准测试的任务数量也相对有限 (15 个)，可能不足以全面评估 TOOLMAKER 的泛化能力。

While TM-BENCH contains over 100 unit tests to evaluate the correctness of the tools, passing these tests does not guarantee perfect correctness in all real-world scenarios. Scientific workflows often involve edge cases, large-scale data, or unexpected computational patterns that are not captured by a small set of tests.

代码仓库质量的假设 (Assumption of Code Repository Quality): TOOLMAKER 的有效性依赖于代码仓库的质量（结构、文档、代码质量）。论文假设代码仓库是 “reasonably well-structured, up-to-date, and documented”，但在实际情况中，开源代码仓库的质量参差不齐，TOOLMAKER 在处理质量较差的代码仓库时的性能可能下降。

Our framework assumes that the referenced code repositories are reasonably well-structured, up-to-date, and documented. In practice, however, open-source repositories may have poor documentation or incomplete implementation details...

缺乏与物理实验的整合 (Lack of Integration with Physical Experiments): 论文主要关注计算任务的自动化，没有涉及科研流程中涉及物理实验的环节。在生命科学、化学等领域，很多科研任务需要物理实验的验证，TOOLMAKER 当前框架无法直接支持。

While TOOLMAKER addresses the critical challenge of tool creation, we acknowledge that fully autonomous scientific discovery remains constrained by physical experimentation requirements. This is an aspect which our work does not address.

伦理风险的深入探讨不足 (Insufficient Discussion of Ethical Risks): 论文提到了自主工具创建技术在生命科学领域的潜在伦理风险，但 讨论较为初步 (briefly mentioned)，缺乏深入的分析和解决方案。考虑到该技术可能带来的潜在危害，伦理风险的评估和 mitigation 策略需要更加重视。

We acknowledge that automated tool creation in life sciences carries significant risks that require careful consideration. ... These risks underscore the importance of developing robust safety measures and ethical guidelines alongside technical capabilities.

需要进一步验证和存疑的点:

TOOLMAKER 在更广泛的科研任务上的泛化能力: 需要在更多不同领域、更复杂、更真实的科研任务上验证 TOOLMAKER 的性能，以评估其泛化能力。

TOOLMAKER 的鲁棒性和稳定性: 需要在长时间、高负载的运行条件下测试 TOOLMAKER 的鲁棒性和稳定性，例如在处理大规模数据、复杂依赖关系、频繁错误等情况下，TOOLMAKER 是否能够保持稳定可靠的运行。

自纠正机制的效率和可解释性: 自纠正机制是 TOOLMAKER 的关键组成部分，但当前的论文对自纠正机制的效率和可解释性分析不足。例如，自纠正迭代的次数、每次迭代的成本、自纠正过程中的决策依据等，都需要更深入的研究。

不同 LLM 模型对 TOOLMAKER 性能的影响: 论文主要使用 gpt-4o 模型，需要探索使用其他 LLM 模型（例如 Claude 3.5 Sonnet, Llama 3）对 TOOLMAKER 性能的影响，以及如何针对不同的 LLM 模型进行优化。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

LLM Agents 构建代理工具