Digital Health Insider: EHRStruct：评估大型语言模型在结构化电子健康记录任务上的综合基准框架

论文信息

标题 (Title): EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks

作者 (Authors): Xiao Yang, Xuejiao Zhao, Zhiqi Shen

机构 (Affiliations): 新加坡南洋理工大学 (NTU), Joint NTU-UBC Research Centre of Excellence in Active Living for the Elderly (LILY), Alibaba-NTU Singapore Joint Research Institute

发表年份 (Year): 2025

来源 (Source): arXiv:2511.08206v2 [cs.AI] (Preprint)

原文链接 (URL): https://arxiv.org/abs/2511.08206

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective): 结构化电子健康记录（EHR）在临床决策中至关重要，但目前的评估框架缺乏标准化，任务定义局限（多集中于单一预测任务），且缺乏对LLM在表格理解与临床推理能力的系统性评估。本研究旨在填补这一空白，建立一个综合性的基准测试框架。

方法 (Methods): 作者提出了 EHRStruct 基准，包含来自 Synthea（合成数据）和 eICU（真实数据）的 2,200 个评估样本，涵盖 6 大类、11 项代表性任务。研究评估了 20 个主流 LLM（包括通用模型和医学专用模型），并测试了不同的输入格式、Few-shot 设置和微调策略。此外，提出了一种名为 EHRMaster 的代码增强框架。

结果 (Results): 1) 通用 LLM（如 Gemini 系列）在结构化 EHR 任务上显著优于医学专用 LLM；2) 数据驱动型任务（如检索、聚合）比知识驱动型任务（如诊断、治疗规划）更容易解决；3) 输入格式对性能有显著影响。

结论 (Conclusion): 现有的医学 LLM 在处理结构化数据和复杂推理方面存在严重缺陷。EHRMaster 通过将推理规划与代码执行结合，实现了 SOTA 性能，为未来研究提供了新方向。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

领域背景：EHR 数据主要以关系型表格存储（结构化数据），包含诊断、药物、实验室结果等。虽然 LLM 在处理非结构化文本方面表现出色，但在处理结构化 EHR 数据时，面临表格理解、临床推理逻辑复杂以及与用户意图对齐的挑战。

核心挑战：现有的 SQL 查询缺乏灵活性，而直接应用 LLM 容易产生幻觉或计算错误。

核心研究问题 (RQs)：

当前 LLM 在处理多样化的结构化 EHR 任务时表现如何？

不同的输入格式、微调策略和 Few-shot 设置如何影响模型性能？

针对现有模型的局限性，如何设计更好的方法来增强 LLM 对结构化医学数据的处理能力？

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有研究：主要集中在有限的任务上，如疾病预测（ICD 编码）、死亡率风险估计或从文本中提取信息。

研究缺口 (Gap)：

任务覆盖窄：忽略了用药推荐、临床实体识别等重要任务。

数据与协议不一致：不同研究使用不同数据集，难以横向比较。

输入格式无共识：缺乏对结构化数据线性化（Linearization）方法的系统研究。

缺乏可解释性：现有指标难以揭示模型是输在“理解”上还是“推理”上。

1.3. 研究目标与核心假设 (Objectives & Hypotheses)

目标：构建一个包含多层次（理解 vs 推理）、多场景（数据驱动 vs 知识驱动）的标准化基准 EHRStruct，并提出一种新的解决方案 EHRMaster。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究采用定量评估 (Quantitative Evaluation) 与 设计科学 (Design Science) 相结合的方法。

基准构建 (EHRStruct)：设计了一个二维分类法来组织任务：

维度一：场景 (Scenario)

数据驱动 (Data-Driven)：仅需表内数据即可解决（如：数值过滤、聚合计算）。

知识驱动 (Knowledge-Driven)：需要外部医学知识结合表内数据（如：基于症状判断疾病、用药推荐）。

维度二：认知水平 (Cognitive Level)

理解 (Understanding)：信息检索、识别。

推理 (Reasoning)：涉及计算、跨字段推断、决策。

解决方案 (EHRMaster)：针对 LLM 在数值计算和逻辑推理上的弱点，提出了一种代码增强 (Code-augmented) 的三阶段方法：

解决方案规划 (Solution Planning)：将自然语言问题分解为高层逻辑步骤。

概念对齐 (Concept Alignment)：将逻辑步骤中的抽象概念映射到具体的表格列名和值。

自适应执行 (Adaptive Execution)：

针对计算/过滤任务：生成并执行 Python 代码。

针对临床判断任务：进行直接的自然语言推理。

2.2. 数据来源与样本 (Data Source & Sample)

Synthea：合成数据集，模拟真实的患者病历，无隐私顾虑。

eICU：真实世界的重症监护数据库，包含多机构的复杂表格数据。

样本规模：共定义了 11 个任务，每个任务在两个数据集上各抽取 100 个样本，总计 2,200 个经过专家（医学专家+计算机专家）验证的问答对。

2.3. 操作化与测量 (Operationalization & Measurement)

输入格式实验：测试了 4 种将表格转换为文本的 Prompt 格式：

纯文本转换 (Plain Text)

特殊字符分隔 (Special Character Separation)

图结构表示 (Graph-Structured Representation)

自然语言描述 (Natural Language Description)

评价指标：

准确率 (Accuracy)：用于答案确定的数据驱动任务。

AUC (Area Under ROC Curve)：用于二分类的临床预测任务（如死亡率预测），以应对类别不平衡。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

通用模型碾压医学模型：在绝大多数任务中，通用 LLM（特别是 Gemini-2.5, GPT-4.1）的表现显著优于经过微调的医学专用模型（如 Med42, Huatuo, PMC_LLaMA）。许多医学模型在知识驱动任务上甚至无法输出有效结果（Valid Output）。

任务难度差异：数据驱动任务相对容易，但知识驱动任务（尤其是涉及复杂推理的）对所有模型都是巨大挑战。

微调效果：多任务微调（Multi-task fine-tuning）比单任务微调效果更好，说明不同 EHR 任务间存在共享的推理结构。

3.2. 关键数据与图表解读

Table 3 (Synthea Results) & Table 6 (eICU Results):

Gemini 2.5 在数据驱动的理解任务（D-U1）上达到 98% 的准确率，但在知识驱动的推理任务（K-R1 死亡率预测）上 AUC 仅约为 58%，显示出明显的“高智商、低专业”特征。

医学模型（如 MedAlpaca）在大部分任务上的得分为个位数或无法输出，表明它们缺乏处理结构化数据的预训练。

Figure 2 (Input Formats):

自然语言描述最有利于数据驱动的推理任务（Data-Driven Reasoning），因为它将表格转化为模型熟悉的文本叙述。

图结构表示最有利于理解任务（Understanding），帮助模型捕捉字段间的关联。

对于知识驱动任务，没有任何一种格式能带来一致的提升，说明瓶颈在于模型内在的医学推理能力而非输入形式。

Table 4 (EHRMaster Performance):

EHRMaster 在 Gemini 1.5 上实现了显著提升，特别是在算术密集型任务（D-R4/R5）上达到了 100% 准确率（相比之下基线模型仅 20-70%），证明了引入代码解释器进行计算的必要性。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

医学模型的溃败：大多数医学 LLM 是在非结构化的生物医学文献或临床笔记上训练的，缺乏对“字段-值”对（Field-Value Pairs）和表格逻辑的归纳偏置。这导致它们在面对结构化输入时，不仅无法调用医学知识，甚至无法理解基本的表格结构。

EHRMaster 的优势：该方法成功地将“逻辑规划”与“精确计算”解耦。LLM 擅长规划和语义对齐，但由于幻觉问题不擅长直接计算。通过生成 Python 代码来处理过滤和聚合，EHRMaster 规避了 LLM 的短板。

4.2. 理论贡献 (Theoretical Contributions)

分类体系：提出了 EHR 任务的二维分类法（数据/知识 × 理解/推理），为后续研究提供了细粒度的评估维度。

基准建立：EHRStruct 填补了结构化 EHR 数据综合评估的空白，特别是引入了 Synthea 和 eICU 双源数据验证，增强了结论的鲁棒性。

4.3. 实践启示 (Practical Implications)

对模型开发者：未来的医学 LLM 预训练必须包含大量结构化数据（如 SQL 数据库转储、表格数据），而不仅仅是医学文献。

对应用开发者：在构建临床辅助系统时，不要直接依赖 LLM 进行数值计算或风险评分，应采用类似 EHRMaster 的 "Code-as-Tool" 策略。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：目前主要关注单轮问答，未涉及多轮对话；主要针对单一表格或关联性较简单的表格，未涉及极其复杂的跨库 Join 操作。

未来方向：

引入迭代式、适应性的治疗规划评估（考虑患者对药物的实时反应）。

探索多模态（文本+表格+时间序列）的联合建模。

5. 结论 (Conclusion)

本文通过构建 EHRStruct 基准，揭示了当前 LLM 在处理结构化 EHR 数据时的能力边界。研究发现通用模型在结构化推理上优于医学模型，但两者在结合外部医学知识进行复杂推理时均面临挑战。提出的 EHRMaster 框架通过代码增强和语义对齐，显著提升了性能，证明了“规划-对齐-执行”范式在临床数据处理中的有效性。

6. 核心参考文献 (Core References)

Synthea Dataset: Walonoski, J., et al. (2018). Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health record. JAMIA.

eICU Dataset: Pollard, T. J., et al. (2018). The eICU Collaborative Research Database, a freely available multi-center database for critical care research. Scientific Data.

TableMaster: Cao, L., & Liu, H. (2025). Tablemaster: A recipe to advance table understanding with language models. arXiv.

LLM4Healthcare: Zhu, Y., et al. (2024). Prompting large language models for zero-shot clinical prediction with structured longitudinal electronic health record data. arXiv.

DeLLiriuM: Contreras, M., et al. (2024). DeLLiriuM: A large language model for delirium prediction in the ICU using structured EHR. arXiv.

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.