MEDPLAN：一个基于 RAG 的两阶段个性化医疗计划生成系统

尽管近期大型语言模型 (LLM) 在电子健康记录 (EHR) 应用方面取得了成功，但大多数系统主要侧重于评估，而非治疗计划的制定。我们发现当前方法存在三个关键局限性：它们一次性生成治疗计划，而非遵循临床医生所采用的序贯推理过程；它们很少整合患者特定的历史背景信息；并且未能有效区分主观和客观的临床信息。受 SOAP 方法（主观、客观、评估、计划）的启发，我们引入了 MEDPLAN，一个旨在构建 LLM 推理以使其符合真实临床医生工作流程的新颖框架。我们的方法采用两阶段架构，首先基于患者症状和客观数据生成临床评估，然后根据此评估制定结构化的治疗计划，并通过检索增强生成技术融入患者特定的信息。全面的评估表明，我们的方法在评估准确性和治疗计划质量方面均显著优于基线方法。

1. 论文研究目标

1.1 研究目标与实际问题

研究目标：
提出并验证一个名为 MEDPLAN 的新框架。该框架旨在利用检索增强生成 (Retrieval-Augmented Generation, RAG) 技术，并遵循医学领域常用的 SOAP（主观信息 Subjective, 客观信息 Objective, 评估 Assessment, 计划 Plan）方法论，构建一个两阶段的 LLM 系统，用于生成个性化且结构化的医疗治疗计划 (Plan)。

想要解决的实际问题：

现有 LLM 在医疗规划方面的不足： 尽管 LLM 在 EHR 分析方面有进展，但大多聚焦于评估/诊断 (Assessment) 任务，而忽略了后续关键的治疗规划 (Treatment Planning)。

未能模拟临床推理过程： 现有的少数涉及治疗规划的 LLM 方法通常试图一步到位直接从临床数据生成计划，这不符合医生实际的序贯推理 (sequential reasoning) 过程（先评估诊断，再制定计划）。这种“跳步”可能导致计划与其诊断基础脱节。

"generate treatment plans directly from clinical data in a single pass, failing to mirror the sequential cognitive process physicians adopt..."

缺乏个性化历史背景： 现有方法很少整合对治疗决策至关重要的患者特定历史背景（如病史、过往治疗反应、纵向趋势）。这导致生成的计划往往是通用的，而非个性化的。

"current approaches rarely incorporate patient-specific historical context... This neglect of personalized context leads to generic treatment recommendations..."

主客观信息混淆： 现有系统未能有效区分主观的患者自述 (S) 和客观的临床检查测量 (O)，而这种区分在临床实践中对于权衡信息、制定计划至关重要。

"most systems don’t effectively distinguish between subjective patient narratives and objective clinical measurements..."

问题的新颖性：

关注治疗计划生成： 将研究重点从 LLM 常用的诊断/评估任务，转移到更具挑战性、更需要结构化推理的治疗计划生成。

模拟 SOAP 流程： 首次明确提出使用 LLM 模拟 SOAP 的两阶段认知流程（先 A 后 P）来构建系统，使 AI 推理更贴近临床实践。

结合个性化 RAG： 将 RAG 应用于治疗计划生成，并特别强调检索患者自身历史记录 (self-history references) 和其他相似患者记录 (cross-patient references) 来增强个性化。

1.2 科学假设

本文要验证的核心科学假设是：通过构建一个模拟医生 SOAP 思考流程的两阶段 LLM 框架 (MEDPLAN)，先生成评估 (A)，再基于评估并结合通过 RAG 检索到的患者特定历史信息来生成计划 (P)，可以比单阶段直接生成计划或不充分利用历史信息的基线方法，产生更高质量、更准确、更个性化的医疗治疗计划。

1.3 相关研究

论文在 “2 Related Work” 部分回顾了相关研究：

SOAP 框架： 提及 SOAP 是临床文档记录和推理的标准框架 (Cameron and Turtle-Song, 2002)，已有计算方法尝试按 SOAP 结构化笔记 (Castillo et al., 2019)，但多视为文档分类而非推理步骤。

LLM 在医疗领域的应用： 肯定了 LLM (GPT-4, LLaMA, Mistral-7B) 在医疗文档、临床摘要、决策支持方面的潜力，但也指出了事实不一致和幻觉的挑战 (Alkhalaf et al., 2024; Tang et al., 2023)。

LLM 用于医疗报告/计划生成： 引用了使用 LLM 生成初步诊断报告 (Zhou, 2023) 和少数尝试直接生成治疗计划的研究 (Liu et al., 2024; Chen et al., 2025)，并指出了这些研究未能模拟序贯推理和缺乏个性化的问题。

RAG 在医疗中的应用： 提及 RAG 用于提高文档检索效率 (Alkhalaf et al., 2024) 或 EHR 摘要/笔记生成的准确性 (Yang et al., 2025)，但认为现有 RAG 主要关注数据检索和聚合，未能真正增强 LLM 内部生成过程，尤其是在个性化规划方面。

1.4 研究归类与领域专家

研究归类：

医疗信息学 (Medical Informatics) / 临床决策支持 (Clinical Decision Support)

自然语言处理 (NLP) / 文本生成 (Text Generation)

人工智能在医疗中的应用 (AI in Healthcare)

检索增强生成 (RAG)

人机交互 (HCI) - 暗示了系统与医生的交互流程

值得关注的研究员：

论文作者团队：来自多所大学（NCCU, NYCU, UMich, Stevens, FEMH, FIU），覆盖信息科学、计算机、医学等领域，如 Hsin-Ling Hsu, Cong-Tinh Dao, Chenwei Wu 等。

SOAP 方法研究者（如 Cameron）。

医疗 LLM/RAG 应用研究者（如 Alkhalaf, Yang, Tang, Liu, Chen）。

EHR 分析与临床决策支持系统研究者。

2. 论文研究方法

2.1 新思路、方法与模型

核心思路：模拟 SOAP 流程的两阶段生成

将复杂的医疗计划生成任务分解为两个更符合临床逻辑的子任务：先生成评估 (Assessment, A)，再生成计划 (Plan, P)。

关键方法：MEDPLAN 框架 (见图 1 右侧和图 2)

阶段一：评估生成 (Assessment Generation Stage)

输入： 当前患者的主观信息 (S) 和客观信息 (O)。

RAG 增强：

检索患者自身过去的 SOAP 记录 (Self-history references, 。

检索其他相似患者的评估记录 (Cross-patient references, 。这里的检索采用两步：先用双编码器 (bi-encoder) 进行快速语义相似性搜索，筛选出 Nsim 个候选；再用交叉编码器 (cross-encoder) 进行更精细的相关性重排，选出 Top-Nref 个最相关的记录 RSOA。

输出： LLM (fθa) 结合当前 S, O 以及检索到的 Rhist 和 RSOA，生成当前评估 Agen。

阶段二：计划生成 (Plan Generation Stage)

输入： 当前患者的 S, O 以及第一阶段生成的评估 。

RAG 增强：

检索患者自身过去的 SOAP 记录 (（包含 S, O, A, P）。

检索其他相似患者的完整 SOAP 记录 (Cross-patient references, （包含 S, O, A, P）。同样采用两步检索（bi-encoder + cross-encoder）筛选出 Top-Nref 个最相关的完整 SOAP 记录 RSOAP。

输出： LLM (fθp) 结合当前 S, O, Agen 以及检索到的 Rhist 和 RSOAP，生成当前治疗计划 Pgen。

信息对齐 (Information Alignment) / 指令微调 (Instruction Tuning) (Section 3.3)

为了让 LLM 更好地理解任务结构和数据特点，分别对评估生成模型 (fθa) 和计划生成模型 (fθp) 进行了指令微调。使用带有 S, O, A, P 完整标注的数据，让模型学习从输入生成对应的 A 或 P，目标是最小化生成结果与真实 A/P 之间的损失 (L)。这确保了模型能按预期在两阶段框架中工作。

模型： MEDPLAN 是一个框架，它整合了两个专门的 LLM（一个用于生成 A，一个用于生成 P）、RAG 组件（包括双编码器、交叉编码器、历史记录数据库）以及指令微调策略。

2.2 解决方案之关键

关键在于以下几点：

两阶段架构： 严格区分并按顺序执行评估 (A) 和计划 (P) 的生成，模拟了医生的认知流程，确保计划基于明确的评估。

SOAP 元素的显式分离： 在 Prompt 中明确区分 S 和 O，让 LLM 能更好地理解和权衡不同性质的信息。

个性化的 RAG： 同时利用患者自身历史 ( 和相似患者经验 ( 作为 RAG 的来源，为生成提供丰富的个性化上下文。

两步检索策略： 结合快速的语义搜索（bi-encoder）和精准的重排（cross-encoder）来高效地从大量病例中检索最相关的参考信息。

指令微调： 通过微调使 LLM 适应特定的任务结构（生成 A 或 P）和数据格式。

2.3 与之前方法的特点和优势

符合临床逻辑： 两阶段设计比单阶段直接生成更贴近医生的实际工作流程，提高了推理的透明度和计划的合理性。

更强的个性化： 通过 RAG 整合了患者自身历史和相似病例经验，生成的计划更能满足个体需求，而非通用模板。

信息利用更精细： 明确区分 S 和 O，并针对性地检索历史 A 或完整 SOAP 记录，使信息利用更高效、更相关。

潜在的更高可靠性： 结构化的推理过程和 RAG 提供的依据，有望减少 LLM 的“自由发挥”和幻觉，提高输出的可靠性。

端到端系统设计： 不仅提出了框架，还考虑了指令微调和实际部署（见第 5 节 Demo），完整性更高。

3. 论文实验结果

3.1 实验设计

数据集：

使用台湾远东纪念医院 (FEMH) 的内部数据集，包含 2021 年的 350,684 份门诊和急诊 EHR SOAP 笔记，来自 55,890 位患者。数据经过去标识化处理。

特点： 涵盖一般性病例而非特定疾病，具有更广泛的适用性。

数据划分： 选取有至少 3 次就诊记录的患者。6000 名患者记录用于构建 RAG 的知识库。额外 3000 名患者记录随机分为训练集和测试集。

模拟设置： 对于有 N 次就诊记录的患者，使用前 N-2 次作为历史 (Rhist)，第 N-1 次作为训练目标 (A 和 P)，测试时使用前 N-1 次作为历史，预测第 N 次的 A 和 P。

评估指标 (Section 4.2)：

使用多种文本生成评估指标：BLEU, METEOR, ROUGE-1/2/L, BERTScore。

选择理由： 这些指标能从不同维度衡量生成文本与参考文本（真实的 A 或 P）的相似性。BLEU/ROUGE 关注 n-gram 重叠（词汇相似性），METEOR 考虑词干、同义词和对齐（更侧重意义），BERTScore 利用上下文嵌入计算语义相似度（更深层理解）。

对比方法/设置 (Table 1 & 2)：

基线模型：

直接生成 Plan (S+O -> P)：不经过 Assessment 阶段。

不使用 RAG 组件：没有 Self-history 或 Cross-patient retrieval。

不使用指令微调。

MEDPLAN 变体： 逐步加入 Self-history, Instruction Tuning, Cross-patient RAG，以及最终的 S+O -> A -> P 完整框架。

LLM Backbone： 测试了多种模型，包括 GPT-4o (作为参考但未在 Table 1 显示完整结果), Medical-Llama3-8B, Bio-Medical-Llama3-8B, Medical-Mixtral-7B-v2k。

实验设置 (Section 4.3)：

使用 LoRA 进行参数高效微调。

RAG 参数：Nhist=20 (自身历史记录数), Nref=10 (最终检索的参考记录数), Nsim=80 (粗筛候选数)。

3.2 实验数据和结果

计划生成性能 (Table 1)：

MEDPLAN (S+O->A->P) 显著优于基线 (S+O->P)： 在所有 LLM 和所有指标上，遵循 SOAP 两阶段流程的 MEDPLAN 都优于直接生成计划的基线。例如，对于 Medical-Llama3-8B，MEDPLAN 的 BLEU 从 0.307 提升到 0.315，METEOR 从 0.501 提升到 0.516。这证明了模拟 SOAP 流程的有效性。

RAG 效果显著： 加入 Self-history 和 Cross-patient RAG 能大幅提升性能。例如，对于指令微调后的 Medical-Llama3-8B，加入 RAG 后 BLEU 从 0.052 飙升至 0.307，METEOR 从 0.173 提升至 0.501。这证明了利用历史和相似病例信息的重要性。

指令微调有效： 指令微调本身也能带来提升。

评估生成性能 (Table 2)：

加入 RAG 提升评估准确性： 同样地，在生成 Assessment (A) 时，加入 Self-history 和 Cross-patient RAG 也能提升各项指标。例如，对于 Medical-Llama3-8B，加入所有 RAG 组件后，METEOR 相对基线提升了约 2%，ROUGE-1/2 提升了 2%/1.5%。这表明参考历史和其他病例有助于做出更准确的评估。

定性结果 (Figure 3)：

展示了一个复杂心血管风险患者的案例。

基线模型 (Medical-Mixtral-7B-v2k, S+O->P) 只给出了简单的“Keep current Rx”（维持当前用药）的计划，遗漏了关键的诊断和治疗要素。

MEDPLAN (使用相同 backbone, S+O->A->P) 则生成了更全面、更符合临床实践的计划：“Cardiac catheterization. If symptoms persist, keep Kerlone, Cozaar, and encourage exercise and diet control.”（心脏导管检查。如果症状持续，维持 Kerlone, Cozaar，并鼓励运动和饮食控制）。

优势体现： MEDPLAN 的计划包含了必要的诊断步骤（心导管）、条件性用药管理以及预防性生活方式干预，显示了更强的临床推理能力。

3.3 对科学假设的支持

实验结果强烈支持了论文的科学假设：

两阶段优于单阶段： MEDPLAN (S+O->A->P) 在计划生成任务上一致且显著地优于单阶段 (S+O->P) 方法（见 Table 1），证明了模拟 SOAP 流程的优越性。

RAG 增强效果显著： 无论是在评估生成还是计划生成中，加入基于患者历史和相似病例的 RAG 都带来了大幅性能提升（见 Table 1 & 2），证明了个性化上下文的重要性。

更高质量的计划： 定性案例（图 3）直观展示了 MEDPLAN 相比基线能够生成更全面、更合理、更贴近临床需求的治疗计划。

结论是，MEDPLAN 框架通过其 SOAP 启发的两阶段架构和个性化的 RAG 机制，确实能够生成更高质量的医疗评估和计划。

4. 论文贡献

4.1 论文贡献

提出了 MEDPLAN 框架： 首次将医学 SOAP 流程显式地建模为 LLM 的两阶段推理架构（先 A 后 P），用于生成个性化医疗计划。

整合了个性化 RAG： 系统性地结合了患者自身历史和相似病例经验的检索，为 LLM 提供了丰富的个性化上下文，显著提升了计划质量。

全面的实验验证： 在真实的、大规模的医院 EHR 数据集上进行了广泛实验，使用了多种 LLM 和评估指标，证明了框架的有效性。

发布了功能系统 Demo (提及)： 开发了一个可在真实临床环境测试的原型系统，增强了研究的实践意义。

4.2 业界影响

推动 LLM 在临床规划中的应用： 为 LLM 从辅助诊断向更复杂的治疗规划任务迈进提供了新的思路和框架。

促进 AI 与临床工作流的对齐： 强调了让 AI 推理过程模拟医生实际思维方式的重要性，有助于提高 AI 工具在临床上的可接受度和实用性。

提升个性化医疗水平： 展示了利用 RAG 挖掘 EHR 中历史数据以实现更精准个性化治疗推荐的潜力。

为医疗 RAG 提供新范式： 将 RAG 的应用从简单的事实检索扩展到更复杂的、基于历史和经验的上下文增强。

4.3 潜在应用场景和商业机会

智能临床决策支持系统 (CDSS)： 辅助医生快速生成初步的、个性化的 SOAP 评估和治疗计划建议。

自动化临床文档生成： 自动根据 S 和 O 信息起草 A 和 P 部分，减轻医生文档负担。

医疗质量控制与标准化： 通过提供基于大量病例的标准化建议，减少治疗方案的不合理变异。

医学教育与培训： 帮助医学生理解 SOAP 推理过程，并通过分析 RAG 检索到的相似病例来学习。

商业机会：

开发和销售集成 MEDPLAN 功能的 EHR 插件或独立 CDSS 软件。

提供基于 EHR 的个性化治疗计划生成服务。

为医疗机构定制和部署 MEDPLAN 类系统。

基于该框架开发面向特定专科（如心内科、肿瘤科）的智能规划工具。

4.4 工程师应关注的方面

两阶段系统架构设计： 如何构建和协调两个串联的 LLM 生成阶段。

RAG 系统实现：

构建高效的知识库（存储历史 SOAP 记录）。

实现两步检索流程（bi-encoder + cross-encoder）。

选择和优化检索模型。

LLM 指令微调 (Instruction Tuning)： 如何使用 LoRA 等技术对 LLM 进行高效微调，使其适应特定任务格式（生成 A 或 P）。

Prompt 工程： 设计能够清晰传递任务、区分 S/O 信息、并有效整合 RAG 检索结果的 Prompt 模板（如图 6）。

长上下文处理： 训练和推理时处理长序列 EHR 数据（论文提到使用了 65k 序列长度）。

评估指标的实现与理解： 掌握 BLEU, METEOR, ROUGE, BERTScore 等文本生成指标的计算和解读。

系统部署与集成： 如何将模型部署到实际应用中，并与前端（如 React）和数据库（如 MSSQL, Weaviate）集成（如图 5）。

5. 值得进一步探索的问题和挑战

5.1 未来探索的问题和挑战

数据来源与泛化性 (论文提及 - Limitation E):

当前研究基于单一医院数据，结果能否推广到其他医疗机构、不同 EHR 系统、不同国家/地区的患者群体需要验证。

模型可能学习到特定医院的局部实践模式，而非普适的医学知识。

LLM 固有偏见与局限性 (论文提及 - Limitation E):

LLM 可能带有训练数据中的偏见，或生成不完全符合最新医学标准的内容。RAG 可以缓解但不能完全消除此问题。

需要持续的模型更新和严格的评估机制。

RAG 的深化：

如何更智能地选择和融合检索到的信息？（例如，处理相互矛盾的参考信息）

如何检索更细粒度的信息（例如，特定检查结果或生命体征趋势）而不仅仅是整个 SOAP 记录？

如何动态调整检索策略（例如，根据评估 A 的结果调整 P 阶段的检索）？

处理更复杂的时间动态性： 如何更好地建模和利用患者病情随时间变化的复杂轨迹？

多模态数据融合： 如何将影像、基因组学等多模态信息整合到评估和规划过程中？

可解释性与人机交互： 如何让医生理解 MEDPLAN 生成 A 和 P 的“理由”？如何设计更友好的交互界面，让医生可以方便地修改、确认或否决 AI 的建议？

真实世界临床验证： 需要在前瞻性临床研究中评估 MEDPLAN 对医生决策、工作效率和最终患者结局的实际影响。

5.2 新技术和投资机会

下一代临床工作流 AI 助手： 专注于模拟和优化特定临床流程（如 SOAP、查房、会诊）的 AI 系统。

个性化 RAG 引擎： 专门用于从大规模纵向健康数据中检索个性化信息的 RAG 技术。

可解释医疗 AI 平台： 提供透明决策过程、允许用户交互式探索依据的 AI 工具。

多模态 EHR 分析与规划系统： 整合文本、影像、检验等多源数据的综合性临床决策支持平台。

联邦学习与隐私保护技术在医疗 RAG 中的应用： 解决跨机构数据利用的隐私和安全挑战。

6. 论文存在的不足及缺失

数据集的非公开性： 使用的是内部 FEMH 数据集，使得其他研究者难以复现结果或在其上进行公平比较。

评估指标的局限性： 虽然使用了多种自动化指标，但它们主要衡量文本表面的相似性，无法完全反映临床计划的“正确性”、“安全性”和“合理性”。缺乏由临床医生对生成计划进行的盲法评估。

基线设置相对简单： 对比的基线主要是去掉 MEDPLAN 某些组件的版本。缺乏与其他已发表的（可能更复杂的）医疗计划生成方法或更强的 RAG 策略的比较。

对失败案例的分析不足： 论文主要展示了成功的例子和总体指标的提升。对于 MEDPLAN 在哪些情况下表现不佳、生成了不合理或错误的 A/P，缺乏深入分析。

RAG 检索质量未评估： 论文评估了 RAG 对最终结果的影响，但没有直接评估 RAG 检索到的历史记录或相似病例本身的相关性和质量。

指令微调的细节和影响： 对指令微调的具体实现、所需数据量、以及它对模型性能的确切贡献，描述相对简略。

成本与效率的权衡： 两阶段生成、复杂的 RAG（特别是 cross-encoder 重排）以及可能需要的大型 LLM，其计算成本和推理延迟可能较高，论文未详细讨论这些实际部署的考量。

需要进一步验证和存疑的：

MEDPLAN 在处理罕见病、复杂合并症或信息不全的病例时的表现如何？

两阶段架构相比于一个更强大的、经过特殊训练的单阶段模型（也能访问 RAG）的优势是否依然显著？

评估 (A) 生成的错误对后续计划 (P) 生成的影响有多大？是否存在错误传播的风险？

医生在实际使用 Demo 系统时的真实反馈如何？他们认为哪些方面最有用，哪些地方需要改进？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.