论文信息
标题 (Title):EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks 作者 (Authors):Xiao Yang, Xuejiao Zhao, Zhiqi Shen 发表年份 (Year):2025 原文链接 (URL):https://arxiv.org/abs/2511.08206
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):大型语言模型(LLM)在处理结构化电子健康记录(EHR)数据方面显示出巨大潜力,但由于缺乏标准化的评估框架和明确定义的任务,系统性地评估和比较不同LLM的性能变得非常困难。本研究的目标是开发一个名为EHRStruct的综合性基准测试框架,专门用于解决这一挑战。 方法 (Methods):研究者们构建了EHRStruct基准。该基准包含从两个广泛使用的EHR数据集(一个真实的eICU,一个合成的Synthea)中提炼出的11个代表性临床任务和2,200个评估样本。这些任务被系统地分为两大场景(数据驱动 vs. 知识驱动)和两大认知层面(理解 vs. 推理)。研究团队使用EHRStruct对20个主流LLM(包括通用模型和医学专用模型)进行了全面的零样本、少样本和微调评估。此外,还评估了11种现有的LLM增强方法。最后,基于评估洞见,提出了一种名为EHRMaster的、结合代码生成的新方法。 结果 (Results):评估结果揭示了几个关键发现:1) 通用LLM普遍优于医学专用LLM,特别是闭源的Gemini系列表现最佳。2) LLM在需要纯粹数据操作的“数据驱动”任务上表现良好,但在需要结合外部医学知识的“知识驱动”任务上普遍表现不佳。3) 输入数据的格式对性能有显著影响,但没有一种格式在所有任务上都最优。4) 基于评估中发现的瓶颈,研究者提出的EHRMaster方法在EHRStruct基准上取得了当前最佳性能(state-of-the-art)。 结论 (Conclusion):EHRStruct为评估LLM在结构化EHR数据上的能力提供了一个标准化、可复现且具有临床意义的框架。研究表明,当前LLM(尤其是医学专用LLM)在处理需要深度临床知识的结构化数据推理任务时仍面临巨大挑战。新提出的EHRMaster方法证明,将LLM的自然语言推理与代码生成能力相结合,是提升其在结构化数据上表现的有效途径。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
任务覆盖有限:多数研究只关注少数几个任务,如疾病预测或死亡率估算,而忽略了如用药推荐、临床概念识别等大量其他重要的临床应用场景。 缺乏可比性:不同研究使用不同的数据集、评估流程和输入格式,导致它们的结论无法相互比较,难以形成统一的认知。 输入格式不统一:如何将结构化的表格数据“喂”给LLM(例如,转为JSON、Markdown表格还是自然语言描述)没有统一标准,导致评估结果混乱。 评估指标不透明:现有评估通常只给出一个最终的准确率分数,无法解释模型究竟在哪种推理能力上(例如,数据聚合、算术计算、临床判断)成功或失败。
RQ1: 如何构建一个全面的、标准化的基准测试,以系统性地评估和比较不同LLM在多样化的结构化EHR任务上的性能? RQ2: 当前最先进的通用LLM和医学专用LLM在处理这些任务时表现如何?它们各自的优势和短板是什么? RQ3: 哪些因素(如输入格式、少样本示例、微调策略)会影响LLM的性能? RQ4: 基于对现有模型和方法的评估,能否设计出一种更优的解决方案来处理结构化EHR任务?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
设计并发布EHRStruct:一个全新的、全面的、公开的基准框架,包含11个任务和2200个样本。 进行大规模基准评估:利用EHRStruct全面评估20个LLM和11种增强方法的性能。 提供深度分析:系统分析输入格式、少样本学习等因素对模型性能的影响。 提出新方法EHRMaster:基于评估洞见,设计一种新的、性能更优的解决方案。
P1: 通用LLM和医学专用LLM在处理结构化EHR数据时会表现出不同的性能特点和偏好。 P2: 任务的性质(是纯数据操作还是需要医学知识)将是决定LLM性能的关键因素。 P3: 通过将LLM的规划能力与代码的精确执行能力相结合,可以显著提升其在结构化EHR任务上的表现。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究采用定量 (Quantitative) 的基准测试 (Benchmarking) 方法论。 方法论:核心是构建一个标准化的评估环境(即EHRStruct框架),包括任务定义、数据集构建、评估协议和度量标准,然后在此环境下对一系列模型和方法进行受控实验。
系统性的任务分类:EHRStruct的关键创新在于其任务分类体系。它将11个任务沿着两个正交维度进行组织(见Table 1): 场景 (Scenario):数据驱动 (Data-Driven) vs. 知识驱动 (Knowledge-Driven)。前者指仅靠表格内数据即可完成的任务(如计算平均值),后者则需要结合外部医学知识(如根据化验结果判断疾病风险)。 认知层面 (Cognitive Level):理解 (Understanding) vs. 推理 (Reasoning)。前者指简单的信息提取,后者则需要聚合、计算或决策。 这个分类体系使得评估结果具有高度的可解释性,能够清晰地揭示模型在哪类能力上存在短板。
新方法EHRMaster:基于评估发现,作者提出EHRMaster方法。其关键在于一个**“规划-对齐-执行”**的三阶段流程: 解决方案规划:LLM首先生成一个解决问题的自然语言步骤计划。 概念对齐:LLM将计划中的抽象概念(如“住院时间”)映射到表格中的具体字段(如ADMITTIME)。 自适应执行:LLM判断该任务是适合通过生成Python代码来精确解决(如计算),还是通过直接的自然语言推理来完成(如临床判断),并执行相应操作。
EHRStruct vs. 以前的评估:EHRStruct的优势在于其全面性(11个任务 vs. 少数几个)、标准化(统一数据源和协议 vs. 各自为政)和可解释性(二维分类体系 vs. 单一分数)。 EHRMaster vs. 以前的方法:EHRMaster的优势在于其混合执行模式。它没有强迫LLM用自然语言去“模拟”计算,而是巧妙地将LLM的强项(高级规划和语义理解)与代码解释器的强项(精确计算)结合起来,扬长避短。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源: Synthea:一个高质量的合成EHR数据集,数据结构真实但无隐私问题。 eICU Collaborative Research Database:一个真实的、多中心的重症监护室EHR数据集。
样本:
2.3. 操作化与测量 (Operationalization & Measurement)
核心概念操作化:LLM在结构化EHR上的能力被具体化为11个可测量的任务,例如: D-U1 (数据驱动-理解):根据条件筛选数据(信息检索)。 D-R1 (数据驱动-推理):计算符合条件的记录数(数据聚合)。 K-R1 (知识驱动-推理):根据病人的指标预测死亡率(诊断评估)。 K-R3 (知识驱动-推理):根据诊断推荐合适的药物(治疗规划)。
关键变量测量: 数据驱动任务:使用准确率 (Accuracy)。 知识驱动任务:使用AUC (Area Under the ROC Curve),因为它对类别不平衡的数据集更为鲁棒。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
通用LLM全面超越医学LLM:在几乎所有任务上,顶尖的通用LLM(特别是Gemini系列)都显著优于专门的医学LLM。这表明当前医学LLM的预训练数据(多为非结构化文本)和架构,并未赋予它们处理结构化数据的优势。 “数据驱动”易,“知识驱动”难:所有LLM在处理纯表格数据操作(数据驱动任务)时表现尚可,但在需要结合外部医学知识进行判断(知识驱动任务)时性能急剧下降,许多医学LLM甚至无法产生有效输出。这凸显了将内外部知识有效结合的巨大挑战。 输入格式影响显著但无定论:“自然语言描述”格式在数据驱动的推理任务上效果好,而“图结构”格式在数据驱动的理解任务上更优。对于知识驱动任务,没有任何一种格式能稳定提升性能。 少样本学习和微调的有效性:少样本提示(特别是1-shot和3-shot)能普遍提升性能。多任务微调的效果优于单任务微调,表明模型可以学习到跨任务的通用结构化数据处理模式。 EHRMaster性能卓越:新提出的EHRMaster方法在多个任务上都取得了SOTA性能,尤其是在需要精确计算的数据驱动任务上,通过生成代码基本能达到100%的准确率。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
展示内容:该表格详细列出了20个LLM在11个任务上的性能得分。 揭示关系: 通用 vs. 医学:上半部分的“General LLMs”得分普遍远高于下半部分的“Medical LLMs”。例如,Gemini-2.5在多个D-*任务上得分超过80,而大多数Medical LLMs在这些任务上得分极低,甚至无法输出(X)。 数据驱动 vs. 知识驱动:所有模型在左侧的D-*任务上的得分普遍高于右侧的K-*任务。例如,Gemini-2.5在D-R4/R5上可以达到完美(✓),但在K-R1/R2上只有50-60分的AUC。
关键数据支撑:Gemini-2.5在D-U1上获得98分,而MedAlpaca13B仅得2分,直观展示了性能差距。
展示内容:该表格对比了EHRMaster方法和之前的SOTA增强方法在Gemini系列模型上的性能。 揭示关系:在所有任务上,EHRMaster的得分(第一行)几乎总是等于或高于“previous SOTA”的得分(第二行)。尤其是在D-R4和D-R5(算术计算)任务上,EHRMaster达到了100分,而之前的方法只有85-94分。这强有力地证明了EHRMaster方法的优越性。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
医学LLM的“偏科”问题:当前医学LLM的训练主要集中在医学文献、临床笔记等非结构化文本上,这使得它们擅长“背诵”医学知识,但在理解和操作结构化数据(如表格)的“逻辑”方面存在严重短板。 知识整合的瓶颈:知识驱动任务的普遍失败表明,LLM难以将在预训练中学到的医学知识,与当前输入的、具体的、结构化的病人数据进行有效结合和推理。 Code is All You Need?:EHRMaster的成功表明,对于涉及精确逻辑和计算的结构化数据任务,与其强迫LLM用自然语言“模拟”思考,不如让它“退一步”,作为一个聪明的“代码生成器”,将任务交给更可靠的计算工具去执行。
4.2. 理论贡献 (Theoretical Contributions)
首个结构化EHR的LLM基准:本文最重要的贡献是提供了第一个系统性、多维度的结构化EHR基准框架EHRStruct。它为该领域的后续研究提供了一个公平比较的平台和一套标准化的评估语言。 对医学LLM发展的启示:研究结果对未来医学LLM的发展方向提出了深刻质疑和建议。未来的医学LLM不仅要学习医学文本,还必须加强对结构化数据表示和操作的学习。 提出了Code-Augmented新范式:EHRMaster的成功,为解决LLM在结构化数据推理上的短板提供了一个有前景的、结合代码生成的新范式,这在其他需要处理表格数据的领域(如金融、物流)也具有借鉴意义。
为模型选型提供依据:医疗AI公司在选择基础模型时,可以参考EHRStruct的评测结果,而不是仅仅依赖通用榜单。研究表明,目前选择最强的通用LLM可能是更明智的策略。 指导产品设计:EHRMaster的设计哲学(规划-对齐-执行)为开发处理结构化数据的AI应用提供了具体的技术路线图。 推动标准化:EHRStruct的发布有望推动行业形成评估LLM处理结构化EHR能力的统一标准,促进领域的健康发展。
4.3. 实践启示 (Practical Implications)
谨慎选择医学LLM:对于涉及结构化数据的任务,不要想当然地认为医学LLM就一定更好。 优先考虑数据驱动任务:在当前技术水平下,LLM在自动化数据查询、聚合、计算等任务上更为可靠。 拥抱代码增强:在需要精确计算的应用场景中,应积极探索将LLM与代码生成和执行相结合的架构。
4.4. 局限性与未来研究 (Limitations & Future Research)
未来研究: 将EHRStruct扩展到更多任务和数据集。 深入研究如何提升LLM在知识驱动任务上的表现。 探索如何让EHRMaster等方法更具鲁棒性,能处理更复杂、更模糊的临床问题。
5. 结论 (Conclusion)
6. 核心参考文献 (Core References)
Li, L., et al. (2024a). A scoping review of using large language models (LLMs) to investigate electronic health records (EHRs). 一篇关于LLM在EHR领域应用的综述,为本研究提供了宏观背景和动机。
Walonoski, J., et al. (2018). Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health care record. 本研究使用的数据集之一Synthea的出处,代表了高质量合成医疗数据的生成方法。
Pollard, T. J., et al. (2018). The eICU Collaborative Research Database, a freely available multi-center database for critical care research. 本研究使用的另一个核心数据集eICU的出处,是真实世界重症监护数据的宝贵资源。
Zhu, Y., et al. (2024). Prompting large language models for zero-shot clinical prediction with structured longitudinal electronic health record data. 一篇探索如何用提示工程处理结构化EHR的代表性论文,是本研究评估的增强方法之一(LLM4Healthcare)。
Cao, L., & Liu, H. (2025). Tablemaster: A recipe to advance table understanding with language models. 一篇关于通用表格理解的代表性工作,是本研究评估的非医学增强方法之一,为EHRMaster的设计提供了思路。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.