基于医疗流程图的多智能体自我分诊系统


论文信息

  • 标题 (Title): Multi-agent self-triage system with medical flowcharts 

  • 作者 (Authors): Yujia Liu, Sophia Yu, Hongyue Jin, Jessica Wen, Alexander Qian, Terrence Lee, Mattheus Ramsis, Gi Won Choi, Lianhui Qin, Xin Liu, Edward J. Wang

  • 机构 (Affiliations): 加州大学圣地亚哥分校 (UCSD), 加州大学旧金山分校 (UCSF), Kaiser Permanente, Google Research, 华盛顿大学等。


  • 发表年份 (Year): 2025


结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective): 在线医疗资源和LLM正成为医疗决策的首要接触点,但现有的LLM存在幻觉、缺乏透明度和准确性低等问题。急诊室面临大量非紧急就诊的压力。本研究旨在开发一个TriageMD系统,利用临床验证的流程图作为约束,实现透明、准确且可审计的患者自我分诊。

  • 方法 (Methods): 研究构建了一个包含100个来自美国医学会 (AMA) 的临床验证流程图的数据库,并将其转换为图结构。系统采用多智能体架构(检索智能体、决策智能体、对话智能体)。评估采用了大规模合成数据(由GPT-4o, Claude 3, Gemini, DeepSeek生成),涵盖不同对话风格(简短、描述性、模糊等),以测试检索准确率和流程导航准确率。

  • 结果 (Results): 系统在流程图检索任务中实现了 95.29% 的Top-3准确率 (N=2,000);在流程图导航任务中,针对不同对话风格和条件,实现了 99.10% 的平均准确率 (N=37,200)。

  • 结论 (Conclusion): 通过结合LLM的自然语言处理能力与标准化临床协议的严谨性,该方法证明了透明、可泛化的AI辅助分诊的可行性,有望改善医疗资源利用率。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 背景:公众日益依赖互联网和LLM(如ChatGPT)进行健康咨询。然而,急诊室 (ED) 充斥着约40%的非紧急病例,导致资源浪费和医生倦怠。

  • 核心问题

    1. 传统的症状检查器 (Symptom Checkers) 准确率低且缺乏针对性。

    2. 通用LLM聊天机器人存在“幻觉”问题 (Hallucination),且作为“黑盒”缺乏透明度和可审计性,难以在医疗场景中建立信任。

    3. 关键挑战:如何在保留LLM自然语言交互灵活性的同时,确保医疗建议的安全性、准确性和可验证性?

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究:Symptom checkers 缺乏灵活性;通用 LLM 给出的建议往往过于模糊或存在误导性;微调 LLM 虽然有帮助,但难以为医疗专业人员提供即时的控制和审计能力。

  • 研究缺口 (Gap):缺乏一种共享的、结构化的表示层 (Shared, Structured Representation),能够连接人类专家(医疗协议)和 LLM(推理与生成),从而限制 LLM 的不可预测性。

1.3. 研究目标与核心假设 (Objectives & Hypotheses)

  • 目标:提出并验证一个多智能体系统 TriageMD,该系统利用 AMA 临床流程图作为决策骨架,指导 LLM 进行分诊。

  • 核心假设

    • H1: 检索模块能够准确地从数据库中识别最合适的流程图。

    • H2: 导航模块能够可靠地解释患者反应,并正确遵循检索到的流程图路径。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 范式:设计科学 (Design Science) 与定量评估。

  • 核心方法神经符号 AI (Neuro-symbolic AI) / 检索增强生成 (RAG) 的变体。

    • 解决方案关键:将非结构化的医疗文本(AMA 指南)转换为有向图 (Directional Graphs) 结构。系统不让 LLM 直接生成医疗建议,而是让 LLM 充当“翻译官”和“导航员”,在固定的流程图节点间移动。

    • 优势:相比纯端到端 LLM,该方法具有完全的可解释性 (Explainability) 和可审计性 (Auditability)

2.2. 系统架构 (System Architecture)

系统由三个 LLM 驱动的智能体组成:

  1. 检索智能体 (Retrieval Agent):结合向量相似度搜索 (Cosine Similarity with FAISS) 和 LLM 语义分析,根据患者主诉检索最匹配的流程图。

  2. 决策智能体 (Decision Agent):在流程图的每个节点,分析患者回复。它将回复分类为四个轴向:是否相关 (On-topic)、是否回答 (Answered)、是/否 (Yes/No)、是否确定 (Certainty)。

  3. 对话智能体 (Chat Agent):根据决策智能体的输出,生成富有同理心的自然语言回复,向患者提问或提供建议。

2.3. 数据来源与样本 (Data Source & Sample)

  • 知识库:100 个来自《美国医学会家庭医疗指南 (第4版)》的自我分诊流程图。

  • 评估数据:由于涉及交互式对话,无法直接使用静态数据集。作者使用 4 个不同的 LLM (GPT-4o, Claude 3 Haiku, Gemini 2.0 Flash-Lite, DeepSeek-Chat) 生成了大规模合成数据:

    • 检索任务:8,000 个合成的“开场白” (Opening Statements)。

    • 导航任务:148,800 个合成的“患者回复” (Patient Responses),覆盖 5 种对话模式(简短、描述性、模糊、不确定、离题)。

2.4. 操作化与测量 (Operationalization & Measurement)

  • 检索准确率:Top-1, Top-3, Top-5 检索到的流程图是否包含标准答案。

  • 导航准确率:决策智能体能否正确解析患者意图(如将“我觉得有点恶心”解析为“是”或“不确定”),并采取正确的下一步行动(继续、追问或澄清)。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • 检索性能:单纯依靠 LLM 或单纯依靠向量搜索均不如混合检索智能体 (Retrieval Agent)。系统能以极高精度锁定相关流程图。

  • 导航鲁棒性:系统在处理各种类型的患者回答时表现出极高的稳定性 (>99%)。特别是在处理“模糊 (Weak)”和“不确定 (Uncertain)”回答时,系统能够识别不确定性并停止推进流程,这对于医疗安全至关重要。

3.2. 关键数据与图表解读

  • Figure 3 (检索结果)

    • 混合检索智能体的 Top-1 准确率为 84.66%。

    • Top-3 准确率达到 95.29%。这表明在实际应用中,向用户展示前 3 个选项供确认是最佳策略。

  • Figure 4 (导航结果)

    • 总体准确率 99.10%

    • Pattern 4 (不确定回答) 的处理:系统能以 99.53% 的准确率识别出患者的不确定(如“我不太确定”),并归类为“不确定且未回答”,从而触发追问逻辑,而非错误地跳转到“是”或“否”的分支。这是防止误诊的关键机制。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation)

  • 解决了“黑盒”问题:通过强制 LLM 遵循预定义的图结构,系统的决策路径是完全透明的。临床医生可以确切知道系统为什么给出某个建议(因为它遵循了流程图的路径 A -> B -> C)。

  • 处理不确定性的能力:医疗对话中患者常无法给出确切的 Yes/No。系统能够识别模糊性并进行澄清,模拟了真实医护人员的问诊技巧。

4.2. 理论与实践贡献 (Contributions)

  • 理论贡献:展示了结构化临床知识 (Structured Clinical Knowledge) 如何作为 LLM 的“护栏” (Guardrails)。提出了一种基于多智能体的协作框架来模拟复杂的临床分诊过程。

  • 实践启示

    • 可定制性:医院或医疗机构可以通过编辑后台的流程图(JSON/Graph)来更新分诊逻辑,而无需重新训练模型。

    • 人机协作:建议在部署时向患者展示 Top-3 匹配结果,既利用 AI 的检索能力,又保留人类的最终选择权。

4.3. 局限性与未来研究 (Limitations & Future Research)

  • 局限性

    1. 合成数据评估:虽然规模大,但缺乏真实患者的临床验证,可能无法完全捕捉真实世界中的语言细微差别或非语言线索。

    2. 流程图的局限性:AMA 流程图主要基于 Yes/No 的二元逻辑,限制了对复杂病情的表达能力。

    3. 单模态:目前仅支持文本,不支持多模态输入(如图片)。

  • 未来研究

    1. 真实世界验证:在受控的临床环境中进行患者测试。

    2. 错误恢复机制:开发更复杂的纠错策略。

    3. 流程图扩展:利用 LLM 辅助生成新的流程图,并由人类专家审核,以覆盖更多专科。

5. 结论 (Conclusion)

本文提出了 TriageMD,一个基于多智能体和医疗流程图的对话式自我分诊系统。通过将 LLM 的语言理解能力与 AMA 流程图的结构化逻辑相结合,该系统实现了高准确率、透明且可审计的分诊服务。研究结果表明,该架构能够有效缓解 LLM 在医疗应用中的幻觉和不可控问题,为未来可信赖的医疗 AI 工具开发提供了重要范式。

6. 核心参考文献 (Core References)

  1. AMA Family Medical Guide: American Medical Association Family Medical Guide. (Turner Publishing Company, 2011). [作为系统的核心知识库]

  2. ChatGPT Usage: Mendel, T., et al. (2025). Laypeople’s Use of and Attitudes Toward Large Language Models... J. Med. Internet Res.

  3. LLM Hallucination: Xu, Z., et al. (2025). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv.

  4. Symptom Checker Accuracy: Wallace, W. et al. (2022). The diagnostic and triage accuracy of digital and online symptom checker tools. Npj Digit. Med.


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: