用于可追溯诊断推理的端到端智能体 RAG 系统训练

论文信息

标题 (Title)：End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
作者 (Authors)：Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, and Weidi Xie
发表年份 (Year)：2025 (preprint dated August 21, 2025)
原文链接 (URL)：https://github.com/MAGIC-A14Med/Deep-DxSearch

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：由于固有的知识局限和幻觉问题，准确诊断对医疗大型语言模型 (LLM) 而言仍是一个核心挑战。尽管检索增强生成 (RAG) 和工具增强的智能体方法显示出潜力，但它们对外部知识的次优利用以及因监督不足导致的反馈-推理可追溯性脱节是其主要局限。本研究旨在引入一个名为 Deep-DxSearch 的智能体 RAG 系统，通过端到端的强化学习 (RL) 训练，实现可引导、可追溯的检索增强式医疗诊断推理。
方法 (Methods)：研究人员首先构建了一个大规模的医疗检索语料库，包含病人记录和可靠的医学知识源。随后，将 LLM 框架化为核心智能体，将检索语料库视为其环境，并使用针对格式、检索、推理结构和诊断准确性量身定制的奖励函数，通过强化学习从大规模数据中演进智能体 RAG 策略。
结果 (Results)：实验证明，端到端的智能体 RL 训练框架在多个数据中心上始终优于基于提示工程和免训练的 RAG 方法。训练后的 Deep-DxSearch 在诊断准确性上取得了显著提升，在分布内 (ID) 和分布外 (OOD) 的常见病和罕见病诊断上，均超越了 GPT-40、DeepSeek-R1 等强大的诊断基线模型。
结论 (Conclusion)：Deep-DxSearch 通过其独特的端到端训练和奖励设计，显著提升了诊断策略，为临床医生提供了更可靠、更精确的初步诊断支持。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

研究背景：AI 驱动的医疗诊断需要复刻临床决策中基于证据的精确性和情境感知能力。基于 LLM 的智能体 RAG 系统通过结合 LLM 的编排能力和检索工具，能够查询指南、搜索背景知识和匹配相似病例，从而生成透明、可追溯的诊断推理过程，展现出巨大潜力。然而，当前的智能体 RAG 系统通常是“仅推理” (inference-only)且非端到端训练的，这使得它们在需要多次检索和处理嘈杂反馈的高风险诊断环境中显得很脆弱。
核心研究问题 (RQs)：本文指出现有智能体 RAG 系统存在三大核心局限：
1. 僵化的检索-推理工作流：缺乏联合优化，模型无法自主决定何时检索、何时推理。
2. 严重依赖手工制作的查询提示：在诊断场景中，由于病症和症状变化巨大，制定通用的检索规则是不可行的。
3. 有限的反馈驱动适应能力：静态的工作流无法根据嘈杂的检索反馈调整生成策略。
  因此，核心研究问题是：如何设计一个可完全训练的、端到端的智能体 RAG 系统，使其能够自主学习并联合优化检索与推理的策略，从而实现灵活、鲁棒且可追溯的医疗诊断？
核心研究问题是否是一个新的问题？ 是的。该研究明确指出，当前 agentic RAG 系统的设计“通常是仅推理且非端到端训练的”，本文提出的“完全可训练的强化学习 (RL) 设计”是对现有方法局限性的直接回应和创新。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究：引言部分回顾了 AI 诊断、LLM 智能体和 RAG 系统的进展。现有系统通过利用检索工具查询指南和匹配病例，为诊断提供了可追溯的证据链。
研究缺口 (Gap)：本文识别出的核心研究缺口在于缺乏端到端的训练机制。现有智能体 RAG 系统依赖于固定的、人工设计的提示和工作流，无法通过学习来优化其核心的“检索-推理”交错策略，也难以适应真实诊断过程中的噪声和不确定性。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：本文旨在提出并验证 Deep-DxSearch，一个专门为医疗诊断设计的智能体 RAG 系统。其核心目标包括：
1. 构建一个全面的医疗检索语料库：整合疾病指南、结构化病历和大规模知识库，为智能体的检索和推理提供坚实的数据基础。
2. 设计一个完全可训练的智能体 RAG 策略：通过强化学习 (RL) 进行端到端训练，使智能体能够从大规模数据中自主学习最优的检索-推理联合策略。
3. 全面评估系统性能：在分布内 (ID) 和分布外 (OOD) 的多样化数据集上进行严格评估，证明该方法的有效性和泛化能力。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

研究范式：本研究采用系统构建与实验评估的研究范式。
方法论：核心方法论是将智能体 RAG 系统置于强化学习 (RL) 框架中进行端到端训练 。
1. 环境构建：首先，构建了一个庞大且异构的医疗检索语料库，作为智能体交互的“环境” 。
2. 智能体与动作空间：LLM 作为智能体，其动作空间被定义为五个离散类别：(reason)（内部推理）、(lookup)（查询指南）、(match)（匹配相似病例）、(search)（搜索知识库）和(diagnose)（输出最终诊断）。
3. 端到端训练：使用 GRPO (Group Relative Policy Optimization) 算法进行 RL 训练。关键创新在于其多阶段、多维度的奖励函数设计，该函数旨在共同优化检索质量、推理过程和最终诊断的准确性。
论文中提到的解决方案之关键是什么？ 解决方案的关键在于其完全可训练的端到端设计和精心设计的复合奖励机制。与依赖人工提示的“免训练”RAG 不同，Deep-DxSearch 能够通过 RL 自主学习何时以及如何使用工具。其奖励函数不仅关注最终诊断是否正确，还对中间过程（如检索质量、格式规范性）进行奖励或惩罚，从而引导智能体学习一个灵活且可追溯的诊断策略。
跟之前的方法相比有什么特点和优势?
1. 灵活性与自适应性：与具有僵化工作流的传统 RAG 相比，Deep-DxSearch 可以动态地交错推理和检索，并根据检索反馈调整策略，更接近真实临床场景。
2. 策略优化：与依赖人工提示的方法相比，RL 训练能够从大规模数据中发现并优化出人类难以设计的复杂策略，实现了“The Bitter Lesson”[21] 所倡导的、超越人类先验知识的性能提升。
3. 鲁棒性：端到端训练使智能体能更好地处理检索过程中的噪声和不确定性，在 OOD 数据集上的优异表现证明了其强大的泛化能力和鲁棒性。

2.2. 数据来源与样本 (Data Source & Sample)

数据来源：
- 医疗检索语料库：一个整合了多源数据的大规模语料库，包括：
  - 疾病信息指南：涵盖 16,371 种常见及罕见疾病。
  - 患者记录数据库：包含 177,029 条经过整理的患者记录。
  - 临床知识库：整合了维基百科、PubMed 和医学教科书等超过 250 亿条目。
- 训练与评估数据集：共整理了 24,142 个临床案例，来源于 MIMIC、PMC-Patients、MedDialog 等 7 个数据中心。
样本：
- 分布内 (ID) 样本：包含来自 6 个公开数据集的 20,000 多个诊断案例。
- 分布外 (OOD) 样本：包含来自 Mendeley（孟加拉语数据集）的 757 个常见病案例和来自新华医院的 798 个内部罕见病案例，以测试模型的泛化能力。

2.3. 操作化与测量 (Operationalization & Measurement)

智能体动作空间：定义了5种主动动作 (reason, lookup, match, search, diagnose) 和3种被动动作 (guide, refer, result) 作为环境反馈。
奖励函数：一个复合奖励函数 $Rw d$ ，由格式系数 $s i g ma_f$ 严格控制，并加权组合了匹配奖励 $Rw d_M$ 、搜索奖励 $Rw d_S$ 和诊断奖励 $Rw d_D$ 。
评估指标：
- Top-N 准确率 (Acc@N)：衡量前 N 个预测中是否包含正确诊断。
- Hit@N：用于评估检索策略，衡量前 N 个检索到的相似病例中是否至少有一个与真实诊断相符。
- Hint Score：衡量在推理过程中是否提及了正确诊断，即使最终答案错误。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

端到端 RL 训练显著优于免训练 RAG：在 ID 评估中，与免训练 RAG 相比，Deep-DxSearch 在常见病和罕见病的 Top-1 准确率上分别高出 9% 和 13.5%；在 OOD 评估中则分别高出 3% 和 5% 。
Deep-DxSearch 超越现有 SOTA 模型：训练后的 Deep-DxSearch 显著超越了包括 GPT-40、DeepSeek-R1 在内的通用 LLMs 以及多种专业医疗诊断系统（如 MedRAG, MAC）。在 ID 常见病任务上，其 Top-1 准确率比次优的通用模型高出 19.97% ；在 ID 罕见病任务上，比次优的专业系统高出 23.68% 。
奖励设计和语料库组件至关重要：消融研究表明，用于联合优化检索和推理策略的奖励设计至关重要，移除该部分会导致常见病和罕见病的 Top-1 准确率分别下降 16.68% 和 22.14% 。在语料库中，移除“相似病例检索”模块会导致性能大幅下降（常见病下降 11.78%，罕见病下降 17.46%）。
智能体策略在训练中不断进化：可解释性分析显示，在 RL 训练过程中，Deep-DxSearch 在三个关键能力上持续提升：症状关联（检索更相关的病例）、鉴别诊断（从候选中识别正确诊断）和无关信息排除（增强鲁棒性）。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

表 1：分布内 (ID) 评估结果 (Table 1 In-distribution evaluation)
- 展示内容：该表在多个 ID 数据集上，对比了三种不同 LLM 核心（Qwen2.5-7B/14B, Llama3.1-8B）在“Vanilla”（无 RAG）、“RAG”（免训练）和“Ours”（Deep-DxSearch）三种模式下的 Acc@1 和 Acc@5。
- 揭示关系：数据清晰地显示了一个递进关系：Ours > RAG > Vanilla。例如，在 Qwen2.5-14B 核心下，对于 RareBench 数据集，Vanilla 的 Acc@1 为 18.07%，RAG 提升至 34.70%，而 Ours 则达到了 70.48% ，有力地证明了端到端 RL 训练的巨大优势。
图 3：与 SOTA 模型的性能对比 (Figure 3 In-distribution comparison)
- 展示内容：该图 (a) 部分对比了 Deep-DxSearch 与通用 LLM（GPT-40, DeepSeek-R1）的平均准确率；(b) 部分与多种专业医疗模型（MedCPT, MedRAG, MAC 等）进行比较；(c) 部分展示了在 6 个数据中心上的详细对比。
- 揭示关系：无论是与通用模型还是专业模型相比，Deep-DxSearch（Ours）在 Top-1 和 Top-5 准确率上均处于领先地位。例如，在 (b) 图中，代表 Ours 的三角形点在所有指标上都显著高于其他几何形状的点，直观地展示了其 SOTA 性能。
图 4：消融研究与可解释性分析 (Figure 4 Ablation study and Interpretability analysis)
- 展示内容：(a) 部分展示了移除不同奖励和语料库组件后的性能下降情况；(b) 部分展示了随着训练步数增加，智能体在“症状关联”、“鉴别诊断”和“无关信息排除”三个维度上的能力变化曲线。
- 揭示关系：(a) 图中的红色条（移除策略奖励）和蓝色条（移除患者记录数据库）显示出最大的性能降幅，证明了这两部分是系统的关键。(b) 图中的蓝色曲线（Ours）在所有三个指标上都随着训练稳步上升，而灰色曲线（仅有目标奖励的基线）则几乎停滞不前，这从机制上解释了为什么 Deep-DxSearch 的性能更优越。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

回答研究问题：是的，本研究通过构建 Deep-DxSearch 并进行全面评估，成功地回答了引言中提出的核心问题。实验证明，一个端到端训练的智能体 RAG 系统，通过 RL 和精心设计的奖励机制，能够学习到灵活、鲁棒且可追溯的诊断策略，其性能远超依赖静态、人工设计流程的传统 RAG 系统。

4.2. 理论贡献 (Theoretical Contributions)

理论贡献：本文的核心贡献在于提出了第一个（据作者所知）用于医疗诊断的、完全可训练的、端到端的智能体 RAG 框架。它将诊断过程形式化为一个 RL 问题，并设计了一套可行的动作空间和多维度奖励函数，为如何训练 LLM 智能体以联合优化检索和推理提供了开创性的蓝图。这挑战了当前 agentic RAG 系统普遍依赖“免训练”和“提示工程”的设计哲学，并有力地印证了理查德·萨顿的“The Bitter Lesson”——即可扩展的、基于学习的方法最终会超越依赖人类先验知识的方法。
对业界的影响：这项研究为开发下一代临床决策支持系统提供了新的思路。它表明，通过端到端训练，可以打造出更智能、更可靠的 AI 诊断助手。对于医疗 AI 行业来说，这意味着未来的发展方向可能不再是简单地将 LLM 与知识库连接，而是要构建能够自主学习和优化信息获取与处理策略的智能系统。

4.3. 实践启示 (Practical Implications)

对临床医生：Deep-DxSearch 提供的可追溯推理过程（如案例所示），能够清晰地展示诊断结论是如何一步步得出的，这有助于增强临床医生对 AI 系统的信任和采纳。
对 AI 开发者：本研究提供了一个完整的开源解决方案（数据、代码、模型），为社区开发和改进类似的 agentic RAG 系统提供了宝贵的资源和起点。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：
1. 缺乏真实临床环境验证：尚未在实时的临床诊断场景中评估其对医生的辅助效果。
2. 对特定中心的定制化有限：尽管语料库庞大，但对特定医疗中心的临床环境适应性可能不足。
3. 任务局限性：评估仅限于诊断任务，其在治疗规划、患者随访等其他医疗领域的适用性仍是未知数。
未来研究：
1. 进行临床验证，评估其在实际部署中的效果。
2. 促进框架向不同临床环境的广泛应用和精确适配。
3. 将框架扩展到更广泛的医疗任务，并开发除检索之外的互补工具。

5. 结论 (Conclusion)

本文提出了 Deep-DxSearch，一个通过强化学习统一了证据获取与临床推理的智能体 RAG 诊断系统。与被动消费检索内容的传统 RAG 不同，Deep-DxSearch 能够主动学习控制证据搜集过程，从而在数据稀疏或嘈杂的环境中表现出更强的鲁棒性，并产出更准确、更有依据的决策。研究贡献包括一个大规模的临床语料库、一个共同优化智能体策略和推理的 RL 框架，以及在多中心评估中对现有 SOTA 模型的一致性超越。研究结果为医疗基础模型的发展指明了方向：外部知识的获取和推理应被共同优化，查询的构建应被视为首要的学习目标，而非提示工程的附属品。

6. 核心参考文献 (Core References)

Sutton, R. (2019). The bitter lesson. Incomplete Ideas (blog).
- 链接: http://www.incompleteideas.net/IncIdeas/BitterLesson.html
- 贡献: 该文是本文方法论的哲学基础。作者引用此文强调，依赖大规模数据和计算的学习方法，最终会胜过依赖人类先验知识和手工设计的方法，这正是本研究端到端 RL 训练所要证明的观点。
Johnson, A. E. W., et al. (2023). Mimic-iv, a freely accessible electronic health record dataset. Scientific Data.
- 链接: https://www.nature.com/articles/s41597-023-01945-9
- 贡献: MIMIC-IV 是本文构建训练、评估数据集和检索语料库所使用的核心公开数据集之一。
Xiong, G., Jin, Q., Lu, Z., & Zhang, A. (2024). Benchmarking retrieval-augmented generation for medicine. ArXiv, abs/2402.13178.
- 链接: https://arxiv.org/abs/2402.13178
- 贡献: MedRAG 是本文在 SOTA 医疗诊断系统比较中的一个关键基线模型，代表了当前医疗 RAG 领域的主流方法。
Chen, J., et al. (2024). Cod, towards an interpretable medical agent using chain of diagnosis. ArXiv, abs/2407.13301.
- 链接: https://arxiv.org/abs/2407.13301
- 贡献: CoD 是本文对比的另一个重要的 SOTA 基线模型，代表了基于思维链的智能体诊断方法。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.