用于可追溯诊断推理的端到端 Agentic RAG 系统训练


论文信息

  • 标题 (Title):End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

  • 作者 (Authors):Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, and Weidi Xie

  • 发表年份 (Year):2025
  • 原文链接 (URL)https://arxiv.org/abs/2508.15746

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):由于固有的知识局限性和幻觉问题,准确诊断仍然是大型医疗语言模型(LLM)的核心挑战。 尽管检索增强生成(RAG)和工具增强的智能体(Agentic)方法有潜力缓解这些问题,但它们对外部知识的次优利用以及由于监督不足导致的反馈-推理可追溯性脱钩,仍然是关键限制。 本研究旨在解决这些挑战,提出一个名为 Deep-DxSearch 的 Agentic RAG 系统,通过端到端的强化学习(RL)进行训练,以实现可引导、可追溯的检索增强式医疗诊断推理。

  • 方法 (Methods):研究首先构建了一个大规模的医疗检索语料库,包含患者记录和可靠的医疗知识源。 接着,将 LLM 框架化为核心智能体,将检索语料库作为其环境,通过在格式、检索、推理结构和诊断准确性上设计专门的奖励机制,利用强化学习(RL)从大规模数据中演化出 Agentic RAG 策略。

  • 结果 (Results):实验证明,该端到端智能体强化学习训练框架在多个数据中心上持续优于提示工程和免训练的 RAG 方法。 训练后的 Deep-DxSearch 在诊断准确性上取得了显著提升,在分布内(ID)和分布外(OOD)的常见病和罕见病诊断中,均超越了如 GPT-4o、DeepSeek-R1 等强大的诊断基线模型。

  • 结论 (Conclusion):研究的核心结论是,通过端到端的强化学习训练,可以显著优化 Agentic RAG 系统在医疗诊断任务中的性能,使其具备更强的可追溯性和准确性。 其主要贡献在于提出了一个可扩展的训练框架,验证了“可伸缩的端到端训练优于手工启发式方法”的原则,并为开发更可靠的临床决策支持工具提供了新的路径。


1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:在人工智能驱动的医疗诊断领域,精确复现临床决策是一个核心挑战。 临床决策本质上是基于证据的,需要综合最新的指南、历史病历和结构化医疗知识,将症状映射到可能的疾病。 近期的基于 LLM 的 Agentic RAG 系统通过结合 LLM 的编排能力和检索工具,展现了构建更强大诊断系统的潜力,这些系统可以查找指南、搜索知识,并匹配相似病例,从而生成透明且可追溯的诊断推理。

  • 核心研究问题:然而,当前的 Agentic RAG 系统通常是“仅推理”(inference-only)且未经端到端训练的,这使得它们在需要多次检索、应对嘈杂反馈和演进推理过程的高风险诊断环境中表现脆弱。 本文旨在解决现有 Agentic RAG 系统在医疗诊断中的三大核心局限:

    1. 刚性的检索-推理交错工作流:缺乏联合优化,模型无法自主决定何时使用工具、何时进行推理。

    2. 严重依赖手动制定的查询提示:需要大量人类先验知识来定义检索规则,但这在症状和疑似疾病多变的诊断场景中并不可行。

    3. 有限的反馈驱动适应能力:静态的工作流无法根据检索反馈(尤其是复杂的临床病例等噪声证据)调整生成过程。

  • 是否是新问题:这个问题并非全新,但本文提出的解决方案——即对 Agentic RAG 系统进行端到端的强化学习训练以联合优化检索和推理策略——是一个创新的视角和方法。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究:作者引用了关于 Agentic RAG 系统和 AI 医疗诊断的文献 ,肯定了它们在利用外部知识方面的潜力。这些系统能够通过检索工具查找疾病指南 、背景知识 和匹配相似病例 ,理论上可以提供透明、可追溯的诊断。

  • 研究缺口:本文明确指出现有研究的缺口在于,这些 Agentic RAG 系统缺乏端到端的训练和联合优化 。它们通常是静态的、仅在推理阶段通过提示工程来设计工作流 ,导致模型无法灵活地在推理、检索、案例匹配等操作间切换 ,也无法从检索的反馈中学习和调整策略 。这种“免训练”的设计在高风险、高复杂性的医疗诊断场景中是脆弱且次优的。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标:本文旨在开发一个专为医疗诊断设计的 Agentic RAG 系统,名为 Deep-DxSearch,它通过一个完全可训练的强化学习(RL)框架,实现对交错的检索-推理行为策略的端到端联合优化,从而涌现出具备检索意识的诊断推理能力。

  • 核心假设:本文的核心假设是,对于复杂的 Agentic RAG 系统设计,可扩展的端到端训练比手工设计的启发式方法(如提示工程)更优越 通过将 LLM 智能体在大型医疗知识环境中进行强化学习训练,可以显著提升其诊断的准确性、鲁棒性和可追溯性,超越现有的免训练 RAG 方法和强大的诊断基线模型。


2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究采用定量 (Quantitative) 研究范式。

  • 方法论:研究将 Agentic RAG 系统构建在一个标准的强化学习(RL)框架内。

    • 智能体 (Agent):一个由 LLM 驱动的策略模型 (mathcalM_theta)

    • 环境 (Environment):一个由大规模临床语料库(指南、知识库、病历)组成的外部环境 (mathcalE)

    • 行动空间 (Action Space):智能体可以在五个核心动作中选择:reason (内部推理), lookup (查指南), match (匹配相似病例), search (搜知识), 和 diagnose (做出最终诊断)。

  • 解决方案之关键:关键在于端到端的强化学习训练框架。研究设计了一个包含四个维度的复合奖励函数(final reward scheme),分别评估输出格式、检索质量、分析组织和诊断准确性,从而引导智能体学习最优的 RAG 轨迹,动态调整其检索-推理策略。

  • 与之前方法的特点和优势

    1. 端到端优化:与之前依赖提示工程的“免训练”RAG 方法不同,Deep-DxSearch 通过 RL 对整个检索-推理过程进行联合优化,使策略可以自适应演进。

    2. 灵活性与自适应性:智能体能够学习“何时”以及“如何”检索,可以根据中间步骤的反馈(如不满意的匹配结果)调整后续查询,而不是遵循固定的工作流。

    3. 可扩展性:该方法遵循了AI领域的“苦涩教训”原则,即利用大规模数据和计算进行端到端学习,其性能最终会超越依赖人类先验知识的手工方法,尤其是在复杂的诊断场景中。

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源

    1. 医疗检索语料库 (Medical Retrieval Corpus):这是本研究构建的核心数据资源,包含三个部分:

      • 疾病信息指南:整合了来自 WebMD、NCBI、Orphanet 等多个来源的 16,371 种疾病(包括常见病和罕见病)的症状/表型信息。

      • 患者记录数据库:包含从五个公共数据中心整理出的 177,029 份经过验证的患者记录。

      • 临床知识集合:整合了来自维基百科的 331 万份文档、PubMed 的 2390 万篇文章以及 18 本标准医学教科书。

    2. 训练与评估数据集:共整理了 24,142 个临床案例,来源于 MIMIC、PMC-Patients、MedDialog、RareArena、RareBench、Mendeley 和新华医院等七个数据中心。

  • 样本特征:数据集覆盖了常见病(73.1%)和罕见病(26.9%),地理上源自美、亚、欧等多个国家和地区,确保了多样性。 分布内(ID)数据用于训练和评估,而 Mendeley 和新华医院的数据则作为分布外(OOD)数据,专门用于评估模型的泛化能力。

2.3. 操作化与测量 (Operationalization & Measurement)

  • 关键变量定义与测量:本研究的核心是优化智能体的“行动轨迹”,其效果通过一个精心设计的奖励函数 (Reward Function) 来测量。整个奖励由多个部分加权组成:

    1. 格式系数 ():这是一个门控系数,如果输出不符合预定义的严格格式(如标签缺失、顺序错误),奖励直接为0,确保了输出的结构化。

    2. 患者匹配奖励 ():奖励智能体通过 match 动作检索到与基准诊断相符的相似病例,同时对过多或冗余的匹配操作进行惩罚。

    3. 搜索奖励 ():根据 search 动作中查询的疾病与基准诊断的令牌级别(token-level)重叠度来计算奖励,鼓励提出相关的候选疾病。

    4. 诊断奖励 ():最终的诊断准确性奖励,基于最终 diagnose 标签内答案与基准诊断的令牌相似度,并结合了匹配奖励的调整。

  • 整体奖励通过加权组合并裁剪在 [0, 1] 区间内,确保了训练的稳定。


3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  1. 端到端 RL 训练显著优于免训练 RAG:在分布内(ID)评估中,对于常见病和罕见病,Deep-DxSearch 的 Top-1 准确率分别比免训练 RAG 方法高出 9% 和 13.5%;在分布外(OOD)评估中,则分别高出 3% 和 5%。

  2. 超越 SOTA 模型:训练后的 Deep-DxSearch 在常见病诊断上,比医疗基础模型最高提升 19% (ID) / 17% (OOD) 的 Top-1 准确率;在罕见病上则最高提升 24% (ID) / 17% (OOD)。 它同样优于 GPT-4o 和 DeepSeek-R1 等通用大模型。

  3. 奖励设计和语料库至关重要:消融研究表明,用于协同优化检索和推理策略的奖励设计,使常见病和罕见病的 Top-1 准确率分别提升了 17% 和 22%。 同时,语料库的每个组成部分(特别是患者记录)都对最终性能有显著贡献。

  4. 学习到了更优的 RAG 策略:可解释性分析显示,在训练过程中,智能体在三个关键维度上得到进化:检索相关性(Symptom Association)、鉴别诊断能力(Differential Diagnosis)和无关信息排除能力(Irrelevance Exclusion)。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图 1d: 性能概览 (Overview of Performance)

    • 内容解读:该图展示了 Deep-DxSearch(Ours)在常见病和罕见病诊断任务上,与基线 LLM(Base LLM)及其他框架(Other Frameworks)的 Top-1 和 Top-5 准确率对比。

    • 关键数据:无论是常见病还是罕见病,"Ours" 的两条曲线(代表 Top-1 和 Top-5 准确率)均显著高于其他所有方法,直观地证明了其卓越性能。

  • 图 3: 与其他 SOTA 方法的分布内对比 (In-distribution comparison)

    • 内容解读:图 3a 将 Deep-DxSearch 与通用 LLM(DeepSeek-R1, GPT-4o)进行比较,图 3b 和 3c 则与多种专门的医疗诊断方法(如 MedCPT, MedGemma, MedRAG 等)进行比较。

    • 关键数据:在常见病诊断中,Deep-DxSearch 的 Top-1 准确率(43.04%)远超第二名 DeepSeek-R1(23.07%) 。在罕见病诊断中,其准确率(49.25%)同样大幅领先(DeepSeek-R1 为 19.57%) 。这清晰地表明,经过专门训练的 Agentic RAG 系统在专业任务上远胜于通用模型或依赖其他对齐方法的模型。

  • 图 4a: 组件影响的消融研究 (Ablation study on components impact)

    • 内容解读:该图展示了移除不同组件对模型性能(Top-1, Top-5, Hint Score)的影响。

    • 关键数据:最显著的性能下降发生在移除“策略奖励”(policy reward)和“患者记录数据库”(patient record database)时。例如,移除策略奖励导致罕见病 Top-1 准确率下降 22.14% ;移除患者记录数据库导致其下降 17.46% 。这有力地证明了端到端策略优化利用相似病例进行推理是该系统成功的两大支柱。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 研究发现清晰地表明,通过强化学习对 Agentic RAG 系统进行端到端训练,可以有效解决引言中提出的三大问题。智能体不再依赖僵化的工作流,而是学会了根据不确定性和反馈动态地制定和调整查询策略 。这种 agentic control 的能力,尤其是在数据稀疏或嘈杂的环境中,显著提升了决策的准确性和鲁棒性。

  • 结果回答了核心研究问题:一个经过端到端 RL 训练的 Agentic RAG 系统,其性能确实能够超越依赖提示工程或仅进行目标监督的同类系统。

4.2. 理论贡献 (Theoretical Contributions)

  • 理论贡献:本研究为 Agentic RAG 系统的设计范式提供了重要的经验证据。它验证了理查德·萨顿(Richard Sutton)的“苦涩教训”(The Bitter Lesson)理论——即依赖于大规模数据和计算能力的通用、可扩展的学习方法,从长远来看,比依赖人类手工设计的领域知识和启发式方法更强大 本文将这一思想成功应用于复杂的医疗诊断 RAG 场景,论证了RL是解锁LLM作为智能体核心潜力的有效途径,特别是在需要多步、自适应信息获取的领域。

  • 业界影响:这项研究为开发下一代医疗基础模型指明了方向:外部知识获取和内部推理应该被协同优化,查询的制定应被视为一个首要的学习目标,而非提示工程的附属品。 这为构建更可靠、更值得信赖的AI辅助诊断工具提供了可行的技术蓝图,尤其是在处理碎片化、充满噪声和长尾分布证据的安全关键领域。

4.3. 实践启示 (Practical Implications)

  • 对于临床医生和医疗机构,Deep-DxSearch 展示了AI系统如何能够以一种可追溯、基于证据的方式辅助诊断,尤其是在面对罕见或复杂病例时。系统不仅提供诊断结果,还能展示其获取和综合证据的过程(如匹配了哪些相似病例、查询了哪些知识),这有助于增强临床医生对AI建议的信任和理解。

  • 对于AI系统开发者,该研究提供了一套完整的、可复现的框架,用于训练能够主动控制信息收集过程的智能体。这套方法论(特别是其奖励设计和多阶段训练策略)可以被借鉴到其他需要深度集成外部工具和知识的领域。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性

    1. 缺乏真实临床验证:研究尚未在真实的、实时的临床环境中评估该系统对医生的辅助效果。

    2. 语料库定制化有限:尽管语料库规模庞大,但对特定临床中心的本地化和定制化能力有限。

    3. 任务范围局限:评估仅限于诊断任务,其在治疗规划、患者随访等其他医疗领域的适用性尚待检验。

  • 未来研究

    1. 进行临床验证,以确定 Deep-DxSearch 在实际部署中的实用效果和协作潜力。

    2. 开发更便捷的工具,以促进系统在不同临床环境中的广泛采用和精确适配。

    3. 将框架扩展到更广泛的医疗任务,并开发除检索之外的补充工具。


5. 结论 (Conclusion)

  • 本文提出了 Deep-DxSearch,一个通过端到端强化学习训练的 Agentic RAG 系统,用于实现可追溯的医疗诊断推理。 研究表明,通过协同优化检索和推理策略,Deep-DxSearch 在常见病和罕见病的诊断准确性上,显著超越了免训练的 RAG 方法、强大的通用 LLM(如 GPT-4o)以及其他多种先进的医疗诊断系统,并在分布内和分布外数据集上都表现出优秀的泛化能力。 该研究最重要的贡献是验证了可扩展的端到端训练是提升复杂 Agentic RAG 系统性能的有效路径,为构建更可靠、更智能的临床决策支持系统开辟了新的方向。

6. 核心参考文献 (Core References)

  1. Sutton, R. (2019). The bitter lesson. Incomplete Ideas (blog).

    • 本文的核心哲学思想源于此文,即强调利用大规模计算和数据进行通用方法学习,而非依赖人类先验知识。论文多次引用此文来支撑其采用端到端强化学习的合理性。

  2. Moor, M., Banerjee, O., Abad, Z. F. H., Krumholz, H. M., Leskovec, J., Topol, E. J., & Rajpurkar, P. (2023). Foundation models for generalist medical artificial intelligence. Nature.

    • 这篇文献为利用基础模型进行通用医疗AI研究设定了背景,是本研究所在领域的关键参考文献。

  3. Ng, K. K. Y., Matsuba, I., & Zhang, P. C. (2024). Rag in health care: A novel framework for improving communication and decision-making by addressing llm limitations. NEJM AI.

    • 这篇文献代表了将 RAG 应用于医疗保健领域的当前趋势,是本研究旨在改进和超越的现有方法之一。

  4. Gao, Y., Xiong, Y., Zhong, Y., Bi, Y., Xue, M., & Wang, H. (2025). Synergizing rag and reasoning: A systematic review. arXiv preprint.

    • 这篇综述系统地回顾了 RAG 与推理的结合,为本研究提供了关于现有技术和挑战的宏观视角。

  5. Johnson, A. E. W., et al. (2023). Mimic-iv, a freely accessible electronic health record dataset. Scientific Data.

    • 这是本研究使用的一个核心数据集来源,对于构建训练、评估和检索语料库至关重要。 


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: