Digital Health Insider: MRD-RAG：多轮检索增强生成助力医疗诊断

近年来，准确、快速地部署医疗大型语言模型 (LLM) 已成为一个关键趋势。其中，检索增强生成 (RAG) 技术凭借其快速部署和隐私保护的优势，备受关注。然而，现有医疗 RAG 框架仍存不足。现有医疗 RAG 框架大多针对单轮问答任务设计，难以适应多轮诊断对话场景。同时，现有的医疗多轮 RAG 框架并未充分考虑潜在疾病间的关联性，无法像医生那样进行精准问诊。为应对上述挑战，我们提出了多轮诊断 RAG (MRD-RAG) 框架，该框架旨在模拟医生的诊断流程。 MRD-RAG 能够分析潜在疾病的诊断信息，并像医生一样进行精准的多轮诊断。为评估所提框架的有效性，我们在两个现代医学数据集和两个中医药数据集上进行了实验，并邀请 GPT 及人类医生对不同方法进行评估。实验结果表明，我们的 RAG 框架能够显著增强 LLM 的诊断性能，凸显了该方法在医疗诊断领域的应用潜力。代码和数据可在我们的项目网站获取。

1. 研究目标、实际问题、科学假设及相关研究

1.1 研究目标与实际问题

研究目标： 该论文的核心目标是提高大型语言模型（LLMs）在医疗诊断场景中的准确性和实用性。具体来说，它旨在开发一个能够模拟医生进行多轮诊断对话的框架，通过与患者的交互逐步收集信息并给出更精确的诊断。

解决的实际问题：

现有医疗LLM/RAG的局限性： 目前很多医疗AI应用（包括基于RAG的）主要面向单轮问答（如回答医学知识问题），不适合需要反复交流、逐步深入的诊断场景。论文提到：

Most existing medical RAG frameworks are designed for single-round question answering tasks and are not suitable for multi-round diagnostic dialogue.

多轮对话RAG的不足： 即便是一些多轮RAG框架，也未能有效模仿医生的诊断思维，特别是未能考虑潜在疾病之间的关联与区别，从而进行精确提问。

On the other hand, existing medical multi-round RAG frameworks do not consider the interconnections between potential diseases to inquire precisely like a doctor.

知识库的适用性： 现有的医学知识库（如图谱）可能缺乏详细的、结构化的诊断信息，或者没有同时覆盖现代医学（MM）和中医药（TCM）。

语义对齐问题： 患者的口语化描述（utterances）与知识库中规范的医学术语之间存在语义鸿沟（semantic misalignment），导致信息检索不准确。

是否是新问题？ 利用AI进行医疗诊断、实现多轮对话并不是全新的概念。但如何设计一个能有效模仿医生诊断思维（特别是进行鉴别诊断并据此精确提问）的多轮RAG框架，是当前研究中的一个具体且有挑战性的新方向。

1.2 科学假设

论文的核心科学假设是：**通过构建一个模拟医生诊断流程的多轮RAG框架（MRD-RAG），该框架包含结构化的诊断知识库（DI-Tree）、解决语义鸿沟的索引方法（伪医学史 PMH），以及能够分析多种候选疾病并指导提问的机制（Analyzer模块），可以显著提升LLM在多轮对话中进行准确医疗诊断的能力，**优于未使用RAG、使用单轮RAG或使用现有通用多轮RAG方法的LLM。

1.3 相关研究与归类

论文将相关研究主要分为两类：

检索增强生成（RAG）：

单轮RAG： 侧重于单次问答，包括单次检索（如ChatDoctor [16], HyKGE [11]）和多次检索（如ToG [22], StructGPT [10], IM-RAG [33]）。这些方法不直接适用于需要持续交互的诊断对话。

多轮RAG： 尝试解决多轮对话中的挑战（如查询构建、指代消解）。例如，RagPULSE [8] 使用关键词摘要构建查询，ConvRAG [36] 关注指代消解。但论文指出，这些工作未能增强LLM主动、精确提问的能力。MedDM [13] 提出了基于“临床指导树（CGT）”的多轮推理，但其结构是预设的决策树，与MRD-RAG动态分析检索结果不同。

医疗大型语言模型（Medical LLM）：

模型微调： 通过在医疗数据集上微调LLM参数来注入医学知识（如DISC-MedLLM [3], DoctorGLM [30], HuatuoGPT-II [5], Baichuan-M1 [24]）。这种方法计算成本高，且知识更新不灵活。

结合RAG： 将RAG应用于医疗LLM以提高可靠性（如Self-BioRAG [9], DrHouse [32]利用传感器数据，MedDM [13]）。论文强调其工作的不同之处在于分析检索到的潜在疾病间的联系与区别。

1.4 值得关注的研究员

本论文作者： Yixiang Chen, Penglei Sun, Xiang Li, Xiaowen Chu（来自香港科技大学（广州）数据科学与分析学域）。跟踪他们的后续工作可能会发现该方向的进一步发展。

相关工作作者： 例如，提出RagPULSE、MedDM、Self-BioRAG等工作的研究团队，以及在医疗LLM微调领域（如HuatuoGPT）有影响力团队的研究者，都值得关注。

2. 新思路、方法或模型

2.1 核心思路

模仿人类医生的诊断过程： 医生在诊断时，会根据患者初步描述，联想几种可能的疾病，然后通过询问这些疾病的关键鉴别点来缩小范围或确认诊断。MRD-RAG的核心思路就是将这个过程模式化、自动化。

2.2 关键方法与模型

DI-Tree (Disease Information Tree) 知识库：

构建： 从医学百科网站（如寻医问药网、大医网）收集MM和TCM疾病信息。将每个疾病的HTML页面内容解析成树状结构，其中HTML标题为中间节点，具体内容为叶节点。

特点：

结构化： 相比非结构化文本或复杂图谱，树状结构层次清晰，便于定位诊断相关信息（如症状、检查、诊断依据等子树）。

诊断中心： 专门提取与诊断强相关的子树（通过关键词"symptoms", "diagnosis", "medical examination"等筛选）用于后续处理，排除了治疗等非诊断信息。

覆盖面： 同时包含了MM（746种）和TCM（130种）疾病。

优势： 相比现有知识库（见Table 1），它同时覆盖MM/TCM，且包含详细的、结构化的诊断信息，更适合本研究的诊断任务。

![alt text](https://raw.githubusercontent.com/YixiangCh/MRD-RAG/master/asset/ditree.png)

图源：论文 Figure 2，展示了从HTML构建DI-Tree及索引的过程

伪医学史 (Pseudo Medical History, PMH) 索引：

动机： 患者的口语化描述（如“最近老咳嗽”）与DI-Tree中规范的诊断信息文本（t_DI，如“肺癌早期症状为咳嗽、低热、胸痛……”）之间存在语义差距。

方法： 使用LLM根据t_DI生成一段模拟的、更口语化的患者病史描述文本（t_PMH）。然后分别计算t_DI和t_PMH的嵌入向量（Embeddings），构建两个索引库 (Index_DI 和 Index_PMH)。

To mitigate this misalignment, we also use the LLM to generate pseudo medical history text t_PMH based on t_DI, describing the medical information of a patient with the disease. ... Compared to the diagnosis information text t_DI, t_PMH is more semantically similar to the patient's utterances, facilitating the retrieval.

优势： Index_PMH 中的向量能更好地匹配患者的查询语句，提高检索相关疾病的准确率。

MRD-RAG 框架 (包含三个模块)：

![alt text](https://raw.githubusercontent.com/YixiangCh/MRD-RAG/master/asset/pipeline.png)

图源：论文 Figure 3，展示了MRD-RAG的工作流程

Retriever (检索器)：

接收患者的多轮对话历史（仅患者发言部分 x_patient）。

计算查询 q (拼接所有 x_patient) 的嵌入向量 r_q。

在 Index_DI 或 Index_PMH 中检索最相似的 top-k 个候选疾病 d^i。

提取这些疾病的诊断信息文本 t_DI 作为知识 K 输出。

特点：包含一个判断是否需要检索的步骤，以节省计算；仅用患者发言构建查询，避免被模型自身可能不准的早期判断误导。

Analyzer (分析器，由LLM扮演)：

接收对话历史 X^n 和检索到的知识 K (包含k个候选疾病信息)。

关键功能： 模仿医生的“思考”过程。分析这k个候选疾病之间的异同点、与当前患者情况的关联度，并判断下一步需要询问什么关键信息来鉴别这些疾病或确认诊断。

输出“思考过程” K_thinking。

Mimicking the thinking process of a human doctor, the analyzer module summarizes the interconnections and differences of retrieved candidate diseases and analyzes the patient's connection with each disease...

Doctor (医生，由LLM扮演)：

接收对话历史 X^n 和 Analyzer 输出的 K_thinking。

基于 K_thinking 生成对患者的回应 x_doctor：

如果信息充足，给出诊断。

如果信息不足，根据 K_thinking 中提示的关键鉴别点，向患者提出更精确、更有针对性的问题，以收集更多信息。

Otherwise, the doctor will pose questions based on K_thinking to efficiently gather more medical information from the patient for subsequent decision-making.

2.3 相比之前方法的特点和优势

面向多轮诊断对话： 与单轮RAG不同，它明确设计用于多轮交互。

模拟医生思维 (Analyzer模块)： 与通用多轮RAG（如RagPULSE）或基于固定树的MedDM不同，它通过Analyzer动态分析检索到的多个候选疾病，找出关键鉴别点，从而指导LLM进行更精确的主动提问，这更贴近真实医生的诊断逻辑。

优化的知识库 (DI-Tree)： 提供了结构化、诊断中心的知识，支持更有效的诊断信息检索。

改进的检索 (PMH索引)： 通过生成伪病史，缓解了患者口语与医学术语的语义鸿沟，提高了检索准确性。

无需微调： 作为RAG方法，可以在不重新训练LLM的情况下，通过更新知识库来适配新知识或特定医疗场景（如不同医院），部署更灵活，且有助于保护数据隐私。

3. 实验验证

3.1 实验设计

数据集： 使用了4个数据集进行评估：

CMB-Clin [26]：公开的中文医疗基准，包含74个复杂的MM临床诊断案例。

TCM-SD-100 [19]：中医症候群辨析基准的测试集，随机选100例。

MM-Cases (自建)：使用GPT-4o-mini结合DI-Tree生成609个MM疾病案例，并经医生筛选。

TCM-Cases (自建)：类似方法生成130个TCM疾病案例，并经医生筛选。

说明：涵盖了现代医学和中医，既有公开基准的复杂案例，也有自建的覆盖面更广的案例。

基础模型： 选用了多种通用LLM（Qwen2-7B, Qwen2-72B-AWQ, GPT-4o-mini）和一种宣称有医疗能力的LLM（Baichuan-M1-14B-Instruct [24]）作为MRD-RAG的基座，验证其通用性。Analyzer和Doctor模块使用同一个LLM。

对比基线 (Baselines)：

General LLMs: 上述基础模型直接进行对话诊断（无RAG）。

Medical Domain LLMs: 对比了经过微调的医疗LLM（DISC-MedLLM [3], HuatuoGPT-II-7B [5], Baichuan-M1-14B-Instruct [24]）。

Single-Round RAG: 只在第一轮对话使用RAG检索信息，后续轮次不再检索。

RagPULSE [8]: 一个现有的多轮RAG方法作为代表。

模拟对话： 使用GPT-4o-mini扮演患者角色，与各个方法进行最多3轮的对话。患者被设定为不直接透露疾病名称，信息逐步给出。

评估指标：

GPT评估 (GPT Evaluation Metric): 使用GPT-4o-mini模拟医生，对不同方法生成的完整对话进行打分（1-5分），主要评估“诊断准确性”（Diagnosis Accuracy）。为减少位置偏见，打乱了不同方法对话在prompt中的顺序。

人类医生评估 (Human Doctor Evaluation Metric): 邀请MM和TCM的医生，对MRD-RAG（使用Qwen2-7B）与两个基线（无RAG的Qwen2-7B、单轮RAG的Qwen2-7B）生成的对话进行两两比较 (pairwise comparison)，判断哪个更好。在MM和TCM数据集上各评估了100个案例。

文本生成评估 (Text Generation Evaluation Metric): 使用BLEU, ROUGE, METEOR指标，将生成的对话作为候选文本，将原始病历信息 I_patient 作为参考文本。目标是看模型能否通过对话有效“挖掘”出病历信息。

检索性能评估 (Retrieval Performance): 单独评估Index_PMH相对于Index_DI的检索效果，使用MRR和Hits@n指标。

超参数分析 (Top-k Analysis): 分析检索候选疾病数量 top-k 对诊断性能的影响。

3.2 实验数据与结果

GPT评估结果 (Table 3):

MRD-RAG（尤其是PMH版本）在所有基础模型和所有数据集上的平均得分普遍高于对应的无RAG、单轮RAG基线。

相比无RAG，MRD-RAG平均提升9.4%。

相比单轮RAG，MRD-RAG平均提升6.0%。

MRD-RAG-PMH的表现通常优于MRD-RAG-DI，验证了PMH索引的有效性。

RagPULSE表现不佳，说明其设计可能不适合诊断任务。

一些微调的Medical LLM表现甚至不如通用LLM，可能因为其训练数据偏向常识问答而非诊断推理。

人类医生评估结果 (Figure 4):

医生的评价结果与GPT评估趋势一致。

在MM和TCM数据上，MRD-RAG相比无RAG的平均胜率约为55% vs 33.25% (提升21.75%)。

相比单轮RAG的平均胜率约为41.75% vs 23.75% (提升18%)。

这表明MRD-RAG生成的对话在专业医生看来质量更高，诊断更准确。

文本生成评估结果 (Table 4-7):

结果不完全与其他指标一致，因为这些指标衡量文本相似度，可能无法完全反映医学专业性。例如，模型若未能准确诊断但生成了更接近病历原文的文本，也可能得分高。

但总体上，MRD-RAG方法在这些指标上也表现出较好的分数，例如在CMB数据集上，MRD-RAG相比无RAG和单轮RAG在BLEU-1上有1.99和2.60的提升。

检索性能结果 (Table 8):

Index_PMH 在多数数据集上的MRR和Hits@n显著优于Index_DI。例如，在MM-Cases上，MRR从0.169提升到0.440。这直接支持了PMH设计的有效性。

Top-k分析结果 (Figure 5):

top-k=5 时诊断性能（GPT评分）最佳。top-k=1 时效果差，因为单一检索结果很可能不准。top-k 过大（如>5）性能下降，可能是引入过多无关信息干扰了Analyzer的分析。

3.3 对科学假设的支持

实验结果，特别是GPT评估和人类医生评估的结果，有力地支持了论文的科学假设。MRD-RAG框架，凭借其DI-Tree知识库、PMH索引和模仿医生思维的Analyzer-Doctor流程，确实能够显著提高LLM在多轮医疗诊断对话中的准确性，优于不使用RAG、使用单轮RAG或通用多轮RAG的方法。检索性能和Top-k分析也验证了其关键设计（PMH, k=5）的有效性。

4. 论文贡献与影响

4.1 论文贡献

提出MRD-RAG框架： 设计并实现了一个新颖的、用于医疗诊断的多轮对话RAG框架，其核心在于通过Analyzer模块模拟医生的鉴别诊断思维来指导精确提问。

构建DI-Tree知识库： 创建了一个结构化的、以诊断信息为中心的医学知识库，同时覆盖MM和TCM，弥补了现有资源的不足。

提出PMH索引方法： 创新性地使用LLM生成伪病史来构建索引，有效缓解了用户查询与知识库之间的语义鸿沟。

充分的实验验证： 在多个数据集、多种基线模型和多维度评估指标下验证了MRD-RAG的有效性，并进行了关键组件（PMH）和超参数（top-k）的分析。

4.2 对业界的影响

技术层面：

为开发更智能、更接近人类医生水平的诊断型AI助手提供了新的思路和技术路径。

展示了RAG在处理复杂、交互式任务（如诊断）中的潜力，特别是通过引入**中间推理步骤（Analyzer）**来提升性能。

强调了**知识库构建（DI-Tree）和索引优化（PMH）**对于特定领域RAG应用的重要性。

产业层面：

潜在应用场景：

智能导诊/分诊系统： 在患者就医前进行初步、更准确的问诊和分诊。

辅助诊断工具： 为医生提供第二意见，提示可能的诊断方向和需要关注的鉴别点。

基层医疗支持： 辅助资源有限地区的医生进行诊断。

医学教育与培训： 作为模拟器供医学生练习诊断技能。

个人健康管理助手： 用户可以通过对话了解自身健康状况。

商业机会：

开发基于MRD-RAG技术的医疗SaaS产品。

为医院、诊所、在线医疗平台提供智能化解决方案。

构建和维护高质量的DI-Tree知识库本身也可能成为一种服务。

4.3 作为工程师应关注的方面

RAG架构设计： 理解Retriever-Analyzer-Doctor的流水线，特别是Analyzer如何进行“思考”并指导Doctor提问的机制。关注其Prompt设计。

知识表示与处理： DI-Tree的构建方法，如何从非结构化/半结构化数据（HTML）提取并组织成树状结构。

向量检索与索引： 理解PMH的原理和实现，思考如何针对特定领域优化文本嵌入和索引策略。

LLM的应用： 如何有效地利用LLM扮演不同角色（Analyzer, Doctor, 生成PMH），以及如何设计有效的Prompt。

系统集成与评估： 如何将这些模块组合起来，以及如何设计全面的评估方案（模拟评估、人类评估）。

5. 未来探索与挑战

知识库的扩展与更新： 如何覆盖更广泛的疾病？如何高效、准确地更新知识库以反映最新的医学进展？

多模态信息融合： 如何整合影像学（X光、CT）、化验单、病理报告等多模态信息进行诊断？

处理不确定性和模糊性： 患者描述可能模糊不清、甚至错误，模型如何鲁棒地处理这些情况？如何表达诊断的不确定性？

安全性、可靠性与伦理： 如何确保AI诊断的安全性？如何避免误诊？责任如何界定？如何处理数据隐私和算法偏见？

可解释性： 如何让医生和患者理解AI做出诊断或提出问题的依据？

个性化诊断： 如何结合患者长期的电子病历（EHR）信息进行更个性化的诊断？

真实世界部署与验证： 在真实的临床环境中进行大规模测试和验证，评估其对医疗流程和患者结局的实际影响。

新催生的技术和投资机会：

更先进的多轮、推理型RAG框架。

面向医疗对话的专用嵌入模型。

自动化医学知识库构建与维护工具。

医疗AI安全评估与验证平台。

多模态医疗信息融合与分析技术。

可解释医疗AI技术。

6. Critical Thinking：不足与存疑

知识库依赖性： MRD-RAG的效果高度依赖DI-Tree知识库的质量和覆盖度。如果知识库有错漏，或者未能覆盖罕见病，性能会受影响。知识库的维护成本也是个问题。

合成数据的局限性： 实验中使用了自建的合成数据集（MM-Cases, TCM-Cases）。虽然经过医生筛选，但合成数据可能无法完全模拟真实患者的多样性和复杂性。

模拟评估的局限性： 主要依赖GPT评估和医生对对话文本的评估，而非真实的临床诊断结果验证。GPT评估本身也可能存在偏见。

"Analyzer"模块的黑盒性： Analyzer由LLM扮演，其“思考过程”K_thinking虽然是显式输出，但其生成逻辑仍依赖于LLM本身，可能不够透明或完全可靠。

泛化能力： 对非常见病、或者症状表达极其不典型的患者，模型的诊断能力可能下降。PMH索引对未见过疾病的泛化性如何？

交互轮数限制： 实验设置了最多3轮对话，真实诊断可能需要更多轮交互。

伦理和社会问题未深入探讨： 论文主要关注技术实现和效果，对实际应用中的伦理、法规、接受度等问题涉及较少。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.