MEDPLAN:一个基于 RAG 的两阶段个性化医疗计划生成系统

尽管近期大型语言模型 (LLM) 在电子健康记录 (EHR) 应用方面取得了成功,但大多数系统主要侧重于评估,而非治疗计划的制定。我们发现当前方法存在三个关键局限性:它们一次性生成治疗计划,而非遵循临床医生所采用的序贯推理过程;它们很少整合患者特定的历史背景信息;并且未能有效区分主观和客观的临床信息。受 SOAP 方法(主观、客观、评估、计划)的启发,我们引入了 MEDPLAN,一个旨在构建 LLM 推理以使其符合真实临床医生工作流程的新颖框架。我们的方法采用两阶段架构,首先基于患者症状和客观数据生成临床评估,然后根据此评估制定结构化的治疗计划,并通过检索增强生成技术融入患者特定的信息。全面的评估表明,我们的方法在评估准确性和治疗计划质量方面均显著优于基线方法。

1. 论文研究目标

1.1 研究目标与实际问题

  • 研究目标:
    提出并验证一个名为 MEDPLAN 的新框架。该框架旨在利用检索增强生成 (Retrieval-Augmented Generation, RAG) 技术,并遵循医学领域常用的 SOAP(主观信息 Subjective, 客观信息 Objective, 评估 Assessment, 计划 Plan)方法论,构建一个两阶段的 LLM 系统,用于生成个性化结构化的医疗治疗计划 (Plan)

  • 想要解决的实际问题:

    1. 现有 LLM 在医疗规划方面的不足: 尽管 LLM 在 EHR 分析方面有进展,但大多聚焦于评估/诊断 (Assessment) 任务,而忽略了后续关键的治疗规划 (Treatment Planning)

    2. 未能模拟临床推理过程: 现有的少数涉及治疗规划的 LLM 方法通常试图一步到位直接从临床数据生成计划,这不符合医生实际的序贯推理 (sequential reasoning) 过程(先评估诊断,再制定计划)。这种“跳步”可能导致计划与其诊断基础脱节。

      "generate treatment plans directly from clinical data in a single pass, failing to mirror the sequential cognitive process physicians adopt..."

    3. 缺乏个性化历史背景: 现有方法很少整合对治疗决策至关重要的患者特定历史背景(如病史、过往治疗反应、纵向趋势)。这导致生成的计划往往是通用的,而非个性化的。

      "current approaches rarely incorporate patient-specific historical context... This neglect of personalized context leads to generic treatment recommendations..."

    4. 主客观信息混淆: 现有系统未能有效区分主观的患者自述 (S) 和客观的临床检查测量 (O),而这种区分在临床实践中对于权衡信息、制定计划至关重要。

      "most systems don’t effectively distinguish between subjective patient narratives and objective clinical measurements..."

  • 问题的新颖性:

    • 关注治疗计划生成: 将研究重点从 LLM 常用的诊断/评估任务,转移到更具挑战性、更需要结构化推理的治疗计划生成

    • 模拟 SOAP 流程: 首次明确提出使用 LLM 模拟 SOAP 的两阶段认知流程(先 A 后 P)来构建系统,使 AI 推理更贴近临床实践。

    • 结合个性化 RAG: 将 RAG 应用于治疗计划生成,并特别强调检索患者自身历史记录 (self-history references) 和其他相似患者记录 (cross-patient references) 来增强个性化。

1.2 科学假设

本文要验证的核心科学假设是:通过构建一个模拟医生 SOAP 思考流程的两阶段 LLM 框架 (MEDPLAN),先生成评估 (A),再基于评估并结合通过 RAG 检索到的患者特定历史信息来生成计划 (P),可以比单阶段直接生成计划或不充分利用历史信息的基线方法,产生更高质量、更准确、更个性化的医疗治疗计划。

1.3 相关研究

论文在 “2 Related Work” 部分回顾了相关研究:

  • SOAP 框架: 提及 SOAP 是临床文档记录和推理的标准框架 (Cameron and Turtle-Song, 2002),已有计算方法尝试按 SOAP 结构化笔记 (Castillo et al., 2019),但多视为文档分类而非推理步骤。

  • LLM 在医疗领域的应用: 肯定了 LLM (GPT-4, LLaMA, Mistral-7B) 在医疗文档、临床摘要、决策支持方面的潜力,但也指出了事实不一致和幻觉的挑战 (Alkhalaf et al., 2024; Tang et al., 2023)。

  • LLM 用于医疗报告/计划生成: 引用了使用 LLM 生成初步诊断报告 (Zhou, 2023) 和少数尝试直接生成治疗计划的研究 (Liu et al., 2024; Chen et al., 2025),并指出了这些研究未能模拟序贯推理和缺乏个性化的问题。

  • RAG 在医疗中的应用: 提及 RAG 用于提高文档检索效率 (Alkhalaf et al., 2024) 或 EHR 摘要/笔记生成的准确性 (Yang et al., 2025),但认为现有 RAG 主要关注数据检索和聚合,未能真正增强 LLM 内部生成过程,尤其是在个性化规划方面。

1.4 研究归类与领域专家

  • 研究归类:

    • 医疗信息学 (Medical Informatics) / 临床决策支持 (Clinical Decision Support)

    • 自然语言处理 (NLP) / 文本生成 (Text Generation)

    • 人工智能在医疗中的应用 (AI in Healthcare)

    • 检索增强生成 (RAG)

    • 人机交互 (HCI) - 暗示了系统与医生的交互流程

  • 值得关注的研究员:

    • 论文作者团队:来自多所大学(NCCU, NYCU, UMich, Stevens, FEMH, FIU),覆盖信息科学、计算机、医学等领域,如 Hsin-Ling Hsu, Cong-Tinh Dao, Chenwei Wu 等。

    • SOAP 方法研究者(如 Cameron)。

    • 医疗 LLM/RAG 应用研究者(如 Alkhalaf, Yang, Tang, Liu, Chen)。

    • EHR 分析与临床决策支持系统研究者。

2. 论文研究方法

2.1 新思路、方法与模型

  • 核心思路:模拟 SOAP 流程的两阶段生成

    • 将复杂的医疗计划生成任务分解为两个更符合临床逻辑的子任务:先生成评估 (Assessment, A),再生成计划 (Plan, P)。

  • 关键方法:MEDPLAN 框架 (见图 1 右侧 和 图 2)

    1. 阶段一:评估生成 (Assessment Generation Stage)

      • 输入: 当前患者的主观信息 (S) 和客观信息 (O)

      • RAG 增强:

        • 检索患者自身过去的 SOAP 记录 (Self-history references, 

        • 检索其他相似患者的评估记录 (Cross-patient references, 。这里的检索采用两步:先用双编码器 (bi-encoder) 进行快速语义相似性搜索,筛选出 Nsim 个候选;再用交叉编码器 (cross-encoder) 进行更精细的相关性重排,选出 Top-Nref 个最相关的记录 RSOA

      • 输出: LLM (fθa) 结合当前 S, O 以及检索到的 Rhist 和 RSOA,生成当前评估 Agen

    2. 阶段二:计划生成 (Plan Generation Stage)

      • 输入: 当前患者的 S, O 以及第一阶段生成的评估 

      • RAG 增强:

        • 检索患者自身过去的 SOAP 记录 ((包含 S, O, A, P)。

        • 检索其他相似患者的完整 SOAP 记录 (Cross-patient references, (包含 S, O, A, P)。同样采用两步检索(bi-encoder + cross-encoder)筛选出 Top-Nref 个最相关的完整 SOAP 记录 RSOAP

      • 输出: LLM (fθp) 结合当前 S, O, Agen 以及检索到的 Rhist 和 RSOAP,生成当前治疗计划 Pgen

    3. 信息对齐 (Information Alignment) / 指令微调 (Instruction Tuning) (Section 3.3)

      • 为了让 LLM 更好地理解任务结构和数据特点,分别对评估生成模型 (fθa) 和计划生成模型 (fθp) 进行了指令微调。使用带有 S, O, A, P 完整标注的数据,让模型学习从输入生成对应的 A 或 P,目标是最小化生成结果与真实 A/P 之间的损失 (L)。这确保了模型能按预期在两阶段框架中工作。

  • 模型: MEDPLAN 是一个框架,它整合了两个专门的 LLM(一个用于生成 A,一个用于生成 P)、RAG 组件(包括双编码器、交叉编码器、历史记录数据库)以及指令微调策略。

2.2 解决方案之关键

关键在于以下几点:

  1. 两阶段架构: 严格区分并按顺序执行评估 (A) 和计划 (P) 的生成,模拟了医生的认知流程,确保计划基于明确的评估。

  2. SOAP 元素的显式分离: 在 Prompt 中明确区分 S 和 O,让 LLM 能更好地理解和权衡不同性质的信息。

  3. 个性化的 RAG: 同时利用患者自身历史 ( 和相似患者经验 ( 作为 RAG 的来源,为生成提供丰富的个性化上下文。

  4. 两步检索策略: 结合快速的语义搜索(bi-encoder)和精准的重排(cross-encoder)来高效地从大量病例中检索最相关的参考信息。

  5. 指令微调: 通过微调使 LLM 适应特定的任务结构(生成 A 或 P)和数据格式。

2.3 与之前方法的特点和优势

  • 符合临床逻辑: 两阶段设计比单阶段直接生成更贴近医生的实际工作流程,提高了推理的透明度和计划的合理性。

  • 更强的个性化: 通过 RAG 整合了患者自身历史和相似病例经验,生成的计划更能满足个体需求,而非通用模板。

  • 信息利用更精细: 明确区分 S 和 O,并针对性地检索历史 A 或完整 SOAP 记录,使信息利用更高效、更相关。

  • 潜在的更高可靠性: 结构化的推理过程和 RAG 提供的依据,有望减少 LLM 的“自由发挥”和幻觉,提高输出的可靠性。

  • 端到端系统设计: 不仅提出了框架,还考虑了指令微调和实际部署(见第 5 节 Demo),完整性更高。

3. 论文实验结果

3.1 实验设计

  1. 数据集:

    • 使用台湾远东纪念医院 (FEMH) 的内部数据集,包含 2021 年的 350,684 份门诊和急诊 EHR SOAP 笔记,来自 55,890 位患者。数据经过去标识化处理。

    • 特点: 涵盖一般性病例而非特定疾病,具有更广泛的适用性。

    • 数据划分: 选取有至少 3 次就诊记录的患者。6000 名患者记录用于构建 RAG 的知识库。额外 3000 名患者记录随机分为训练集测试集

    • 模拟设置: 对于有 N 次就诊记录的患者,使用前 N-2 次作为历史 (Rhist),第 N-1 次作为训练目标 (A 和 P),测试时使用前 N-1 次作为历史,预测第 N 次的 A 和 P。

  2. 评估指标 (Section 4.2):

    • 使用多种文本生成评估指标:BLEUMETEORROUGE-1/2/LBERTScore

    • 选择理由: 这些指标能从不同维度衡量生成文本与参考文本(真实的 A 或 P)的相似性。BLEU/ROUGE 关注 n-gram 重叠(词汇相似性),METEOR 考虑词干、同义词和对齐(更侧重意义),BERTScore 利用上下文嵌入计算语义相似度(更深层理解)。

  3. 对比方法/设置 (Table 1 & 2):

    • 基线模型:

      • 直接生成 Plan (S+O -> P):不经过 Assessment 阶段。

      • 不使用 RAG 组件:没有 Self-history 或 Cross-patient retrieval。

      • 不使用指令微调。

    • MEDPLAN 变体: 逐步加入 Self-history, Instruction Tuning, Cross-patient RAG,以及最终的 S+O -> A -> P 完整框架。

    • LLM Backbone: 测试了多种模型,包括 GPT-4o (作为参考但未在 Table 1 显示完整结果), Medical-Llama3-8B, Bio-Medical-Llama3-8B, Medical-Mixtral-7B-v2k。

  4. 实验设置 (Section 4.3):

    • 使用 LoRA 进行参数高效微调。

    • RAG 参数:Nhist=20 (自身历史记录数), Nref=10 (最终检索的参考记录数), Nsim=80 (粗筛候选数)。

3.2 实验数据和结果

  • 计划生成性能 (Table 1):

    • MEDPLAN (S+O->A->P) 显著优于基线 (S+O->P): 在所有 LLM 和所有指标上,遵循 SOAP 两阶段流程的 MEDPLAN 都优于直接生成计划的基线。例如,对于 Medical-Llama3-8B,MEDPLAN 的 BLEU 从 0.307 提升到 0.315,METEOR 从 0.501 提升到 0.516。这证明了模拟 SOAP 流程的有效性

    • RAG 效果显著: 加入 Self-history 和 Cross-patient RAG 能大幅提升性能。例如,对于指令微调后的 Medical-Llama3-8B,加入 RAG 后 BLEU 从 0.052 飙升至 0.307,METEOR 从 0.173 提升至 0.501。这证明了利用历史和相似病例信息的重要性

    • 指令微调有效: 指令微调本身也能带来提升。

  • 评估生成性能 (Table 2):

    • 加入 RAG 提升评估准确性: 同样地,在生成 Assessment (A) 时,加入 Self-history 和 Cross-patient RAG 也能提升各项指标。例如,对于 Medical-Llama3-8B,加入所有 RAG 组件后,METEOR 相对基线提升了约 2%,ROUGE-1/2 提升了 2%/1.5%。这表明参考历史和其他病例有助于做出更准确的评估。

  • 定性结果 (Figure 3):

    • 展示了一个复杂心血管风险患者的案例。

    • 基线模型 (Medical-Mixtral-7B-v2k, S+O->P) 只给出了简单的“Keep current Rx”(维持当前用药)的计划,遗漏了关键的诊断和治疗要素

    • MEDPLAN (使用相同 backbone, S+O->A->P) 则生成了更全面、更符合临床实践的计划:“Cardiac catheterization. If symptoms persist, keep Kerlone, Cozaar, and encourage exercise and diet control.”(心脏导管检查。如果症状持续,维持 Kerlone, Cozaar,并鼓励运动和饮食控制)。

    • 优势体现: MEDPLAN 的计划包含了必要的诊断步骤(心导管)、条件性用药管理以及预防性生活方式干预,显示了更强的临床推理能力。

3.3 对科学假设的支持

实验结果强烈支持了论文的科学假设:

  1. 两阶段优于单阶段: MEDPLAN (S+O->A->P) 在计划生成任务上一致且显著地优于单阶段 (S+O->P) 方法(见 Table 1),证明了模拟 SOAP 流程的优越性。

  2. RAG 增强效果显著: 无论是在评估生成还是计划生成中,加入基于患者历史和相似病例的 RAG 都带来了大幅性能提升(见 Table 1 & 2),证明了个性化上下文的重要性。

  3. 更高质量的计划: 定性案例(图 3)直观展示了 MEDPLAN 相比基线能够生成更全面、更合理、更贴近临床需求的治疗计划。

结论是,MEDPLAN 框架通过其 SOAP 启发的两阶段架构和个性化的 RAG 机制,确实能够生成更高质量的医疗评估和计划。

4. 论文贡献

4.1 论文贡献

  1. 提出了 MEDPLAN 框架: 首次将医学 SOAP 流程显式地建模为 LLM 的两阶段推理架构(先 A 后 P),用于生成个性化医疗计划。

  2. 整合了个性化 RAG: 系统性地结合了患者自身历史相似病例经验的检索,为 LLM 提供了丰富的个性化上下文,显著提升了计划质量。

  3. 全面的实验验证: 在真实的、大规模的医院 EHR 数据集上进行了广泛实验,使用了多种 LLM 和评估指标,证明了框架的有效性。

  4. 发布了功能系统 Demo (提及): 开发了一个可在真实临床环境测试的原型系统,增强了研究的实践意义。

4.2 业界影响

  • 推动 LLM 在临床规划中的应用: 为 LLM 从辅助诊断向更复杂的治疗规划任务迈进提供了新的思路和框架。

  • 促进 AI 与临床工作流的对齐: 强调了让 AI 推理过程模拟医生实际思维方式的重要性,有助于提高 AI 工具在临床上的可接受度和实用性。

  • 提升个性化医疗水平: 展示了利用 RAG 挖掘 EHR 中历史数据以实现更精准个性化治疗推荐的潜力。

  • 为医疗 RAG 提供新范式: 将 RAG 的应用从简单的事实检索扩展到更复杂的、基于历史和经验的上下文增强。

4.3 潜在应用场景和商业机会

  • 智能临床决策支持系统 (CDSS): 辅助医生快速生成初步的、个性化的 SOAP 评估和治疗计划建议。

  • 自动化临床文档生成: 自动根据 S 和 O 信息起草 A 和 P 部分,减轻医生文档负担。

  • 医疗质量控制与标准化: 通过提供基于大量病例的标准化建议,减少治疗方案的不合理变异。

  • 医学教育与培训: 帮助医学生理解 SOAP 推理过程,并通过分析 RAG 检索到的相似病例来学习。

  • 商业机会:

    • 开发和销售集成 MEDPLAN 功能的 EHR 插件或独立 CDSS 软件。

    • 提供基于 EHR 的个性化治疗计划生成服务。

    • 为医疗机构定制和部署 MEDPLAN 类系统。

    • 基于该框架开发面向特定专科(如心内科、肿瘤科)的智能规划工具。

4.4 工程师应关注的方面

  • 两阶段系统架构设计: 如何构建和协调两个串联的 LLM 生成阶段。

  • RAG 系统实现:

    • 构建高效的知识库(存储历史 SOAP 记录)。

    • 实现两步检索流程(bi-encoder + cross-encoder)。

    • 选择和优化检索模型。

  • LLM 指令微调 (Instruction Tuning): 如何使用 LoRA 等技术对 LLM 进行高效微调,使其适应特定任务格式(生成 A 或 P)。

  • Prompt 工程: 设计能够清晰传递任务、区分 S/O 信息、并有效整合 RAG 检索结果的 Prompt 模板(如图 6)。

  • 长上下文处理: 训练和推理时处理长序列 EHR 数据(论文提到使用了 65k 序列长度)。

  • 评估指标的实现与理解: 掌握 BLEU, METEOR, ROUGE, BERTScore 等文本生成指标的计算和解读。

  • 系统部署与集成: 如何将模型部署到实际应用中,并与前端(如 React)和数据库(如 MSSQL, Weaviate)集成(如图 5)。

5. 值得进一步探索的问题和挑战

5.1 未来探索的问题和挑战

  • 数据来源与泛化性 (论文提及 - Limitation E):

    • 当前研究基于单一医院数据,结果能否推广到其他医疗机构、不同 EHR 系统、不同国家/地区的患者群体需要验证。

    • 模型可能学习到特定医院的局部实践模式,而非普适的医学知识。

  • LLM 固有偏见与局限性 (论文提及 - Limitation E):

    • LLM 可能带有训练数据中的偏见,或生成不完全符合最新医学标准的内容。RAG 可以缓解但不能完全消除此问题。

    • 需要持续的模型更新和严格的评估机制。

  • RAG 的深化:

    • 如何更智能地选择和融合检索到的信息?(例如,处理相互矛盾的参考信息)

    • 如何检索更细粒度的信息(例如,特定检查结果或生命体征趋势)而不仅仅是整个 SOAP 记录?

    • 如何动态调整检索策略(例如,根据评估 A 的结果调整 P 阶段的检索)?

  • 处理更复杂的时间动态性: 如何更好地建模和利用患者病情随时间变化的复杂轨迹?

  • 多模态数据融合: 如何将影像、基因组学等多模态信息整合到评估和规划过程中?

  • 可解释性与人机交互: 如何让医生理解 MEDPLAN 生成 A 和 P 的“理由”?如何设计更友好的交互界面,让医生可以方便地修改、确认或否决 AI 的建议?

  • 真实世界临床验证: 需要在前瞻性临床研究中评估 MEDPLAN 对医生决策、工作效率和最终患者结局的实际影响。

5.2 新技术和投资机会

  • 下一代临床工作流 AI 助手: 专注于模拟和优化特定临床流程(如 SOAP、查房、会诊)的 AI 系统。

  • 个性化 RAG 引擎: 专门用于从大规模纵向健康数据中检索个性化信息的 RAG 技术。

  • 可解释医疗 AI 平台: 提供透明决策过程、允许用户交互式探索依据的 AI 工具。

  • 多模态 EHR 分析与规划系统: 整合文本、影像、检验等多源数据的综合性临床决策支持平台。

  • 联邦学习与隐私保护技术在医疗 RAG 中的应用: 解决跨机构数据利用的隐私和安全挑战。

6. 论文存在的不足及缺失

  • 数据集的非公开性: 使用的是内部 FEMH 数据集,使得其他研究者难以复现结果或在其上进行公平比较。

  • 评估指标的局限性: 虽然使用了多种自动化指标,但它们主要衡量文本表面的相似性,无法完全反映临床计划的“正确性”、“安全性”和“合理性”。缺乏由临床医生对生成计划进行的盲法评估。

  • 基线设置相对简单: 对比的基线主要是去掉 MEDPLAN 某些组件的版本。缺乏与其他已发表的(可能更复杂的)医疗计划生成方法更强的 RAG 策略的比较。

  • 对失败案例的分析不足: 论文主要展示了成功的例子和总体指标的提升。对于 MEDPLAN 在哪些情况下表现不佳、生成了不合理或错误的 A/P,缺乏深入分析。

  • RAG 检索质量未评估: 论文评估了 RAG 对最终结果的影响,但没有直接评估 RAG 检索到的历史记录或相似病例本身的相关性质量

  • 指令微调的细节和影响: 对指令微调的具体实现、所需数据量、以及它对模型性能的确切贡献,描述相对简略。

  • 成本与效率的权衡: 两阶段生成、复杂的 RAG(特别是 cross-encoder 重排)以及可能需要的大型 LLM,其计算成本和推理延迟可能较高,论文未详细讨论这些实际部署的考量。

需要进一步验证和存疑的:

  • MEDPLAN 在处理罕见病、复杂合并症或信息不全的病例时的表现如何?

  • 两阶段架构相比于一个更强大的、经过特殊训练的单阶段模型(也能访问 RAG)的优势是否依然显著?

  • 评估 (A) 生成的错误对后续计划 (P) 生成的影响有多大?是否存在错误传播的风险?

  • 医生在实际使用 Demo 系统时的真实反馈如何?他们认为哪些方面最有用,哪些地方需要改进?


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: