Digital Health Insider: 基于医疗流程图的多智能体自我分诊系统

论文信息

标题 (Title): Multi-agent self-triage system with medical flowcharts

作者 (Authors): Yujia Liu, Sophia Yu, Hongyue Jin, Jessica Wen, Alexander Qian, Terrence Lee, Mattheus Ramsis, Gi Won Choi, Lianhui Qin, Xin Liu, Edward J. Wang

机构 (Affiliations): 加州大学圣地亚哥分校 (UCSD), 加州大学旧金山分校 (UCSF), Kaiser Permanente, Google Research, 华盛顿大学等。

发表年份 (Year): 2025

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective): 在线医疗资源和LLM正成为医疗决策的首要接触点，但现有的LLM存在幻觉、缺乏透明度和准确性低等问题。急诊室面临大量非紧急就诊的压力。本研究旨在开发一个TriageMD系统，利用临床验证的流程图作为约束，实现透明、准确且可审计的患者自我分诊。

方法 (Methods): 研究构建了一个包含100个来自美国医学会 (AMA) 的临床验证流程图的数据库，并将其转换为图结构。系统采用多智能体架构（检索智能体、决策智能体、对话智能体）。评估采用了大规模合成数据（由GPT-4o, Claude 3, Gemini, DeepSeek生成），涵盖不同对话风格（简短、描述性、模糊等），以测试检索准确率和流程导航准确率。

结果 (Results): 系统在流程图检索任务中实现了 95.29% 的Top-3准确率 (N=2,000)；在流程图导航任务中，针对不同对话风格和条件，实现了 99.10% 的平均准确率 (N=37,200)。

结论 (Conclusion): 通过结合LLM的自然语言处理能力与标准化临床协议的严谨性，该方法证明了透明、可泛化的AI辅助分诊的可行性，有望改善医疗资源利用率。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

背景：公众日益依赖互联网和LLM（如ChatGPT）进行健康咨询。然而，急诊室 (ED) 充斥着约40%的非紧急病例，导致资源浪费和医生倦怠。

核心问题：

传统的症状检查器 (Symptom Checkers) 准确率低且缺乏针对性。

通用LLM聊天机器人存在“幻觉”问题 (Hallucination)，且作为“黑盒”缺乏透明度和可审计性，难以在医疗场景中建立信任。

关键挑战：如何在保留LLM自然语言交互灵活性的同时，确保医疗建议的安全性、准确性和可验证性？

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究：Symptom checkers 缺乏灵活性；通用 LLM 给出的建议往往过于模糊或存在误导性；微调 LLM 虽然有帮助，但难以为医疗专业人员提供即时的控制和审计能力。

研究缺口 (Gap)：缺乏一种共享的、结构化的表示层 (Shared, Structured Representation)，能够连接人类专家（医疗协议）和 LLM（推理与生成），从而限制 LLM 的不可预测性。

1.3. 研究目标与核心假设 (Objectives & Hypotheses)

目标：提出并验证一个多智能体系统 TriageMD，该系统利用 AMA 临床流程图作为决策骨架，指导 LLM 进行分诊。

核心假设：

H1: 检索模块能够准确地从数据库中识别最合适的流程图。

H2: 导航模块能够可靠地解释患者反应，并正确遵循检索到的流程图路径。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

范式：设计科学 (Design Science) 与定量评估。

核心方法：神经符号 AI (Neuro-symbolic AI) / 检索增强生成 (RAG) 的变体。

解决方案关键：将非结构化的医疗文本（AMA 指南）转换为有向图 (Directional Graphs) 结构。系统不让 LLM 直接生成医疗建议，而是让 LLM 充当“翻译官”和“导航员”，在固定的流程图节点间移动。

优势：相比纯端到端 LLM，该方法具有完全的可解释性 (Explainability) 和可审计性 (Auditability)。

2.2. 系统架构 (System Architecture)

系统由三个 LLM 驱动的智能体组成：

检索智能体 (Retrieval Agent)：结合向量相似度搜索 (Cosine Similarity with FAISS) 和 LLM 语义分析，根据患者主诉检索最匹配的流程图。

决策智能体 (Decision Agent)：在流程图的每个节点，分析患者回复。它将回复分类为四个轴向：是否相关 (On-topic)、是否回答 (Answered)、是/否 (Yes/No)、是否确定 (Certainty)。

对话智能体 (Chat Agent)：根据决策智能体的输出，生成富有同理心的自然语言回复，向患者提问或提供建议。

2.3. 数据来源与样本 (Data Source & Sample)

知识库：100 个来自《美国医学会家庭医疗指南 (第4版)》的自我分诊流程图。

评估数据：由于涉及交互式对话，无法直接使用静态数据集。作者使用 4 个不同的 LLM (GPT-4o, Claude 3 Haiku, Gemini 2.0 Flash-Lite, DeepSeek-Chat) 生成了大规模合成数据：

检索任务：8,000 个合成的“开场白” (Opening Statements)。

导航任务：148,800 个合成的“患者回复” (Patient Responses)，覆盖 5 种对话模式（简短、描述性、模糊、不确定、离题）。

2.4. 操作化与测量 (Operationalization & Measurement)

检索准确率：Top-1, Top-3, Top-5 检索到的流程图是否包含标准答案。

导航准确率：决策智能体能否正确解析患者意图（如将“我觉得有点恶心”解析为“是”或“不确定”），并采取正确的下一步行动（继续、追问或澄清）。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

检索性能：单纯依靠 LLM 或单纯依靠向量搜索均不如混合检索智能体 (Retrieval Agent)。系统能以极高精度锁定相关流程图。

导航鲁棒性：系统在处理各种类型的患者回答时表现出极高的稳定性 (>99%)。特别是在处理“模糊 (Weak)”和“不确定 (Uncertain)”回答时，系统能够识别不确定性并停止推进流程，这对于医疗安全至关重要。

3.2. 关键数据与图表解读

Figure 3 (检索结果)：

混合检索智能体的 Top-1 准确率为 84.66%。

Top-3 准确率达到 95.29%。这表明在实际应用中，向用户展示前 3 个选项供确认是最佳策略。

Figure 4 (导航结果)：

总体准确率 99.10%。

Pattern 4 (不确定回答) 的处理：系统能以 99.53% 的准确率识别出患者的不确定（如“我不太确定”），并归类为“不确定且未回答”，从而触发追问逻辑，而非错误地跳转到“是”或“否”的分支。这是防止误诊的关键机制。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation)

解决了“黑盒”问题：通过强制 LLM 遵循预定义的图结构，系统的决策路径是完全透明的。临床医生可以确切知道系统为什么给出某个建议（因为它遵循了流程图的路径 A -> B -> C）。

处理不确定性的能力：医疗对话中患者常无法给出确切的 Yes/No。系统能够识别模糊性并进行澄清，模拟了真实医护人员的问诊技巧。

4.2. 理论与实践贡献 (Contributions)

理论贡献：展示了结构化临床知识 (Structured Clinical Knowledge) 如何作为 LLM 的“护栏” (Guardrails)。提出了一种基于多智能体的协作框架来模拟复杂的临床分诊过程。

实践启示：

可定制性：医院或医疗机构可以通过编辑后台的流程图（JSON/Graph）来更新分诊逻辑，而无需重新训练模型。

人机协作：建议在部署时向患者展示 Top-3 匹配结果，既利用 AI 的检索能力，又保留人类的最终选择权。

4.3. 局限性与未来研究 (Limitations & Future Research)

局限性：

合成数据评估：虽然规模大，但缺乏真实患者的临床验证，可能无法完全捕捉真实世界中的语言细微差别或非语言线索。

流程图的局限性：AMA 流程图主要基于 Yes/No 的二元逻辑，限制了对复杂病情的表达能力。

单模态：目前仅支持文本，不支持多模态输入（如图片）。

未来研究：

真实世界验证：在受控的临床环境中进行患者测试。

错误恢复机制：开发更复杂的纠错策略。

流程图扩展：利用 LLM 辅助生成新的流程图，并由人类专家审核，以覆盖更多专科。

5. 结论 (Conclusion)

本文提出了 TriageMD，一个基于多智能体和医疗流程图的对话式自我分诊系统。通过将 LLM 的语言理解能力与 AMA 流程图的结构化逻辑相结合，该系统实现了高准确率、透明且可审计的分诊服务。研究结果表明，该架构能够有效缓解 LLM 在医疗应用中的幻觉和不可控问题，为未来可信赖的医疗 AI 工具开发提供了重要范式。

6. 核心参考文献 (Core References)

AMA Family Medical Guide: American Medical Association Family Medical Guide. (Turner Publishing Company, 2011). [作为系统的核心知识库]

ChatGPT Usage: Mendel, T., et al. (2025). Laypeople’s Use of and Attitudes Toward Large Language Models... J. Med. Internet Res.

LLM Hallucination: Xu, Z., et al. (2025). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv.

Symptom Checker Accuracy: Wallace, W. et al. (2022). The diagnostic and triage accuracy of digital and online symptom checker tools. Npj Digit. Med.

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

基于医疗流程图的多智能体自我分诊系统