论文信息
标题 (Title):Building the EHR Foundation Model via Next Event Prediction
作者 (Authors):Zekai Chen, Arda Pekis, Kevin Brown
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2509.25591v1
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):现有电子健康记录 (EHR) 的编码方法,包括大型语言模型 (LLMs),在捕捉丰富的时序动态和对序贯性临床事件进行推理方面存在显著不足
。本研究旨在提出一个新框架,通过显式地建模临床事件的时序和因果关系,增强 LLMs 对 EHR 数据的时序推理能力 。 方法 (Methods):研究提出了“下一事件预测” (Next Event Prediction, NEP) 框架。该方法将 EHR 数据重构为带时间戳的事件链,并通过自回归的方式对 LLM 进行微调,使其能够根据患者的历史病历预测下一个将要发生的临床事件
。 结果 (Results):在肿瘤生存预测和临床诊断等多个任务上的评估表明,NEP 框架性能优越。在需要时序推理的任务中,其性能超过了专门的 EHR 模型(AUROC 提升 4.6%)和通用 LLMs(C-index 提升 7.2%)
。此外,该方法还展现出卓越的数据效率,在低数据量场景下表现突出 。 结论 (Conclusion):NEP 框架为 EHR 中的时序推理提供了一种原则性的方法
。它不仅实现了顶尖的预测准确性,其模型内部的注意力模式也与已知的疾病路径相符,具有临床可解释性 。核心贡献在于通过预测下一事件,有效提升了 LLM 对疾病进展模式和因果关系的建模能力 。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
本研究处于医疗信息学和临床决策支持领域,旨在解决如何从电子健康记录 (EHR) 这种复杂的纵向数据中提取有效信息的问题
。尽管近年来针对 EHR 的基础模型(如 TransformEHR )和通用大语言模型 (LLMs) 取得了显著进展,但它们在捕捉和推理临床事件的时序动态方面仍存在严重局限 。现有方法大多将患者数据视为静态的医疗代码集合,忽略了临床事件内在的顺序性和时间依赖性,这在需要主动和预防性干预的现代医疗场景中构成了一个关键挑战 。 本文的核心研究问题 (RQ) 是:如何通过微调大型语言模型来有效建模 EHR 数据中的时序动态和因果关系,从而提升其在临床预测任务中的表现?
这是一个对现有问题(EHR 的时序建模)提出的新颖解决方案。它并非提出一个全新的问题,而是针对现有方法的共同短板,创新性地应用了“下一事件预测”这一范式来增强 LLMs 的时序推理能力
。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
作者梳理了现有研究,主要包括:
专用 EHR 模型:如 TransformEHR
和 CLMBR ,这些模型虽然考虑了时间因素(如就诊日期),但主要目标是预测未来某个时间点的整体状态(如一次就诊中的所有疾病),而非对单个临床事件的逐步演进进行建模 。 通用 LLM 应用:如 Hegselmann 等人的研究
,他们通过将结构化的 EHR 数据序列化为文本,证明了通用 LLM 作为 EHR 编码器的巨大潜力,其性能甚至能媲美或超越专用模型 。
研究缺口 (Gap):上述两类方法都存在一个共同的“关键缺口”:它们难以有效处理和推理长时间跨度的临床事件序列,无法显式地对疾病的进展模式和事件间的因果关系进行建模
。即使是强大的通用 LLMs,在面对复杂的时序推理时也表现不佳 。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:
提出一种通过“下一事件预测”来增强 LLMs 时序推理能力的新方法
。 在多个需要精细时序理解的临床预测任务上,验证该方法的有效性,并证明其优于现有基线模型
。 展示由 NEP 方法生成的特征(embeddings)与现有 EHR 编码器具有互补性
。
核心假设 (Hypothesis):(文中未明确列出,但可归纳如下)
通过将 EHR 数据建模为事件序列,并以自回归的方式微调 LLM 来预测下一个临床事件,可以让模型显式地学习到患者病程轨迹中的时序和因果动态,从而在需要时序推理的下游临床任务中取得更好的预测性能
。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究为定量研究 (Quantitative)。
方法论:
核心方法是下一事件预测 (Next Event Prediction, NEP)
。该方法将 EHR 建模问题转化为一个自回归语言模型任务 。 具体而言,研究将每个患者的 EHR 数据视为一个按时间排序的临床事件序列。然后,将该序列转化为遵循特定指令的问答对格式,并使用监督式微调 (Supervised Finetuning, SFT) 的方式训练一个仅解码器 (decoder-based) 的 LLM (如 Llama-3.1, Qwen2.5)
。模型被要求在给定患者历史事件的条件下,生成(预测)下一个最可能发生的事件 。
解决方案之关键:关键在于将 EHR 数据从静态的、聚合的视图重新概念化为一个动态的、按时间展开的事件序列
。通过让 LLM 执行“预测下一个事件”这一任务,强制其学习事件之间的时间依赖和潜在的因果关联,而不是仅仅学习事件的共现关系 。 与之前方法的特点和优势:
显式时序建模:与将数据视为静态快照的方法 (如 Hegselmann et al., 2025)
不同,NEP 专注于临床轨迹的序列动态 。 保留数据粒度:与将事件聚合到“就诊”级别的方法 (如 TransformEHR) 不同,NEP 保留了每个独立事件的原始序列和时间信息,实现了更精细的建模
。 任务范式对齐:该方法模拟了临床医生的思维过程——根据历史情况预测未来发展
,使模型的学习目标与实际临床推理过程更一致。 互补性:NEP 采用的因果(单向)注意力机制可以与现有基于双向注意力的 EHR 编码器形成互补,共同提升表征能力
。
2.2. 数据来源与样本 (Data Source & Sample)
训练数据:一个包含超过 120 万名患者、约 2 亿次临床事件的私有真实世界 EHR 数据集。该数据集以肿瘤学数据为主,涵盖了十五种不同的临床适应症
。 评估数据:
MSK-CHORD:一个公开的肿瘤学数据集,包含 24,950 名癌症患者的结构化数据、基因组数据和文本注释等,用于评估生存预测任务
。 EHRSHOT:一个包含 15 个不同临床预测任务的公开基准数据集。本文主要使用其中的“新诊断分配”任务进行评估
。
2.3. 操作化与测量 (Operationalization & Measurement)
核心概念操作化:
一个患者记录 P 被定义为一个按时间排序的事件序列
。 每个事件 ei 包含三个要素:(1) 事件类型(如诊断、药物);(2) 事件值(如具体的 ICD 编码);(3) 时间戳 ti
。
模型训练与测量:
NEP 的核心任务被形式化为预测条件概率 p(et+1∣e1,e2,...,et)
。 训练时采用参数高效微调 (LoRA)
,并最小化模型生成词元与真实下一事件词元之间的交叉熵损失 。 在下游任务评估时,首先冻结微调后的 LLM 参数,提取序列最后的隐藏层状态并进行平均池化,得到特征嵌入 (embeddings)
。然后将这些特征输入到一个轻量级分类器(如逻辑回归)中进行最终预测 。 性能指标主要为 AUROC (受试者工作特征曲线下面积) 和 C-index (一致性指数)
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
研究的核心发现在于,通过下一事件预测对 LLM 进行微调,能够显著提升其在各类临床预测任务中的泛化能力,尤其是在需要时序推理的任务上。主要发现包括三点:
生存预测的优越性:在肿瘤生存预测任务中,NEP-8B 模型在 10 个癌症分期亚组中的 7 个上,其性能显著优于之前的最佳模型和通用的 LLM 编码器
。尤其是在转移性癌症(IV期)的预测中表现突出,因为这类预测高度依赖于对疾病时间进展模式的理解 。 临床任务的通用性:尽管训练数据以肿瘤学为主,NEP-8B 模型在其他普通临床任务(如高血压和乳糜泻的预测)上也取得了当前最佳性能,展示了其强大的泛化能力
。 卓越的标签效率:与传统方法相比,NEP 方法将所需训练数据量减少了 5-10 倍
。在仅有 100 个训练样本的低数据场景下,NEP-8B 的性能已相当可观,证明了其时序预训练目标学习到了可迁移的临床进展模式 。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
表 1: 肿瘤生存预测 C-index 对比
内容解读:该表展示了在 MSK-CHORD 数据集上,不同模型对多种癌症(按分期)的总体生存率预测的 C-index。比较了本文提出的 NEP-8B 模型、基线 LLM2Vec-8B 和先前的 SOTA (MSK 2024)
。 揭示的关系:数据显示 NEP-8B 模型在多数情况下优于其他模型。例如,在结直肠癌 (CRC) I-III 期预测中,NEP-8B 的 C-index 达到 0.81,显著高于 LLM2Vec-8B 的 0.755 和 MSK 2024 的 0.77。在胰腺癌 (Pancreatic) I-III 期中,优势同样明显 (0.71 vs 0.634)
。这证明了 NEP 在捕捉与生存相关的疾病进展模式方面的有效性。
表 2: 跨临床预测任务的 AUROC 性能对比
内容解读:该表展示了在 EHRSHOT 基准的 6 个疾病预测任务上,NEP 模型(不同参数规模)与 CLMBR 及传统机器学习模型(GBM/LR/RF)的 AUROC 性能对比
。 揭示的关系:NEP-8B 在高血压 (HTN) 预测中取得了 0.72 的最高分,并在胰腺癌预测中以 0.82 的成绩与专用模型 CLMBR (0.813) 相当
。这表明 NEP 的时序建模能力可以泛化到非肿瘤领域。同时,结果也清晰地显示了模型规模的重要性,8B 版本的性能普遍优于 1B 和 3B 版本 。
表 3: 标签效率对比
内容解读:该表比较了在不同训练样本数量下,NEP-8B 与 LLM2VEC-8B 的 C-index 性能
。 揭示的关系:在数据量极少(如 100 个样本)的情况下,NEP-8B 的性能 (0.577) 显著优于基线模型 (0.546)。随着数据量的增加,其优势持续保持
。这有力地证明了 NEP 的预训练目标学习到了通用的临床模式,从而大大降低了对下游任务标注数据的依赖 。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
研究发现表明,NEP 框架之所以有效,是因为它迫使模型学习医疗数据内在的、根本性的时序结构,而不是仅仅学习特定疾病的静态特征
。通过预测“下一步会发生什么”,模型构建了能够捕捉临床上有意义的疾病进展模式的内部表征 。 这些发现成功回答了引言中提出的研究问题。结果证明,通过下一事件预测的方式微调 LLM,确实能有效增强其对 EHR 时序动态的建模能力,并转化为在多样化临床预测任务上的卓越性能和泛化能力,即便是在没有特定领域预训练的情况下
。
4.2. 理论贡献 (Theoretical Contributions)
范式创新:本研究为 EHR 建模领域贡献了一个新的范式。它证明了将复杂的 EHR 数据抽象为简单的“下一事件预测”任务,是增强 LLM 时序推理能力的一种强大而有效的方法
。 扩展了 LLM 在医疗领域的应用:该研究展示了如何通过一个精心设计的微调任务,将通用 LLM 的强大序列建模能力适配到具有独特结构和挑战的临床领域,并解决了现有 LLM 应用中普遍存在的时序推理短板。
业界影响:这项研究成果可能推动医疗 AI 领域从静态或基于窗口的建模,转向更动态、更连续的患者轨迹建模。对于需要长期病情监控和早期风险预警的应用(如慢性病管理、肿瘤复发预测),这种方法具有巨大的应用潜力。此外,其高数据效率的特点,使得在数据稀疏的罕见病研究中部署高级模型成为可能
。
4.3. 实践启示 (Practical Implications)
提升预测模型准确性:临床医生和医疗机构可以利用 NEP 框架构建更准确的预测模型,用于患者风险分层、生存率预测和早期诊断,从而辅助临床决策。
降低数据标注成本:由于 NEP 模型具有很高的标签效率,医疗机构可以在数据量有限的情况下开发高性能模型,这对于资源有限的环境或研究罕见疾病具有重要意义
。 可解释性:尽管正文未详述,但摘要和结论中提到,模型的注意力模式与临床路径一致
,这意味着模型不仅给出预测,还可能为预测提供部分可解释的依据,增加临床医生的信任度。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
隐私风险:尽管数据已去标识化,但罕见的事件组合仍可能带来再识别风险
。 数据偏见:模型可能学习并放大训练数据中存在的医疗服务不平等(如基于人群的治疗差异)等偏见
。 知识更新:医疗实践不断发展,模型需要具备持续学习的能力,以适应新的诊疗代码和治疗方法,避免“灾难性遗忘”
。
未来研究:
多模态融合:将当前的结构化数据模型与临床文本、影像等其他模态的数据进行整合
。 真实世界部署:将模型部署到实际临床工作流中,并进行前瞻性验证
。 公平性与持续学习:研究如何集成公平性约束,并开发有效的持续学习协议,以应对偏见和知识更新的挑战
。
5. 结论 (Conclusion)
本文提出了下一事件预测 (NEP) 框架,该框架通过在包含 120 万患者的大规模真实世界 EHR 数据上进行序列事件预测的微调,来训练 LLM 对临床轨迹进行建模
6. 核心参考文献 (Core References)
Hegselmann, S., et al. (2025). Large language models are powerful ehr encoders.
链接:
https://arxiv.org/abs/2502.17403
重要性: 该文献是本文进行比较和批判的关键基础,它证明了通用 LLM 在 EHR 领域的潜力,但本文指出了其在时序推理上的不足,并以此为切入点。
Guo, L. L., et al. (2022). EHR foundation models improve robustness in the presence of temporal distribution shift.
链接:
https://arxiv.org/abs/2204.13992
重要性: 该文献代表了专门为 EHR 设计的自回归基础模型 (CLMBR) 的先进水平,是本文在性能比较中的一个重要基线。
Yang, Z., et al. (2023). TransformEHR: transformer-based encoder-decoder generative model to enhance prediction of disease outcomes using electronic health records.
链接:
https://www.nature.com/articles/s41467-023-38997-z
重要性: 该文献代表了另一种先进的专用 EHR 模型,本文在引言中引用它来说明现有模型在对单个临床事件的序列进展建模方面的局限性。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment