论文信息
标题 (Title): EHRStruct: A Comprehensive Benchmark Framework for Evaluating Large Language Models on Structured Electronic Health Record Tasks 作者 (Authors): Xiao Yang, Xuejiao Zhao, Zhiqi Shen 机构 (Affiliations): 新加坡南洋理工大学 (NTU), Joint NTU-UBC Research Centre of Excellence in Active Living for the Elderly (LILY), Alibaba-NTU Singapore Joint Research Institute 发表年份 (Year): 2025 来源 (Source): arXiv:2511.08206v2 [cs.AI] (Preprint) 原文链接 (URL): https://arxiv.org/abs/2511.08206
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective): 结构化电子健康记录(EHR)在临床决策中至关重要,但目前的评估框架缺乏标准化,任务定义局限(多集中于单一预测任务),且缺乏对LLM在表格理解与临床推理能力的系统性评估。本研究旨在填补这一空白,建立一个综合性的基准测试框架。 方法 (Methods): 作者提出了 EHRStruct 基准,包含来自 Synthea(合成数据)和 eICU(真实数据)的 2,200 个评估样本,涵盖 6 大类、11 项代表性任务。研究评估了 20 个主流 LLM(包括通用模型和医学专用模型),并测试了不同的输入格式、Few-shot 设置和微调策略。此外,提出了一种名为 EHRMaster 的代码增强框架。 结果 (Results): 1) 通用 LLM(如 Gemini 系列)在结构化 EHR 任务上显著优于医学专用 LLM;2) 数据驱动型任务(如检索、聚合)比知识驱动型任务(如诊断、治疗规划)更容易解决;3) 输入格式对性能有显著影响。 结论 (Conclusion): 现有的医学 LLM 在处理结构化数据和复杂推理方面存在严重缺陷。EHRMaster 通过将推理规划与代码执行结合,实现了 SOTA 性能,为未来研究提供了新方向。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
领域背景:EHR 数据主要以关系型表格存储(结构化数据),包含诊断、药物、实验室结果等。虽然 LLM 在处理非结构化文本方面表现出色,但在处理结构化 EHR 数据时,面临表格理解、临床推理逻辑复杂以及与用户意图对齐的挑战。 核心挑战:现有的 SQL 查询缺乏灵活性,而直接应用 LLM 容易产生幻觉或计算错误。 核心研究问题 (RQs): 当前 LLM 在处理多样化的结构化 EHR 任务时表现如何? 不同的输入格式、微调策略和 Few-shot 设置如何影响模型性能? 针对现有模型的局限性,如何设计更好的方法来增强 LLM 对结构化医学数据的处理能力?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:主要集中在有限的任务上,如疾病预测(ICD 编码)、死亡率风险估计或从文本中提取信息。 研究缺口 (Gap): 任务覆盖窄:忽略了用药推荐、临床实体识别等重要任务。 数据与协议不一致:不同研究使用不同数据集,难以横向比较。 输入格式无共识:缺乏对结构化数据线性化(Linearization)方法的系统研究。 缺乏可解释性:现有指标难以揭示模型是输在“理解”上还是“推理”上。
1.3. 研究目标与核心假设 (Objectives & Hypotheses)
目标:构建一个包含多层次(理解 vs 推理)、多场景(数据驱动 vs 知识驱动)的标准化基准 EHRStruct,并提出一种新的解决方案 EHRMaster。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
基准构建 (EHRStruct):设计了一个二维分类法来组织任务: 维度一:场景 (Scenario) 数据驱动 (Data-Driven):仅需表内数据即可解决(如:数值过滤、聚合计算)。 知识驱动 (Knowledge-Driven):需要外部医学知识结合表内数据(如:基于症状判断疾病、用药推荐)。
维度二:认知水平 (Cognitive Level) 理解 (Understanding):信息检索、识别。 推理 (Reasoning):涉及计算、跨字段推断、决策。
解决方案 (EHRMaster):针对 LLM 在数值计算和逻辑推理上的弱点,提出了一种代码增强 (Code-augmented) 的三阶段方法: 解决方案规划 (Solution Planning):将自然语言问题分解为高层逻辑步骤。 概念对齐 (Concept Alignment):将逻辑步骤中的抽象概念映射到具体的表格列名和值。 自适应执行 (Adaptive Execution): 针对计算/过滤任务:生成并执行 Python 代码。 针对临床判断任务:进行直接的自然语言推理。
2.2. 数据来源与样本 (Data Source & Sample)
Synthea:合成数据集,模拟真实的患者病历,无隐私顾虑。 eICU:真实世界的重症监护数据库,包含多机构的复杂表格数据。 样本规模:共定义了 11 个任务,每个任务在两个数据集上各抽取 100 个样本,总计 2,200 个经过专家(医学专家+计算机专家)验证的问答对。
2.3. 操作化与测量 (Operationalization & Measurement)
输入格式实验:测试了 4 种将表格转换为文本的 Prompt 格式: 纯文本转换 (Plain Text) 特殊字符分隔 (Special Character Separation) 图结构表示 (Graph-Structured Representation) 自然语言描述 (Natural Language Description)
评价指标: 准确率 (Accuracy):用于答案确定的数据驱动任务。 AUC (Area Under ROC Curve):用于二分类的临床预测任务(如死亡率预测),以应对类别不平衡。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
通用模型碾压医学模型:在绝大多数任务中,通用 LLM(特别是 Gemini-2.5, GPT-4.1)的表现显著优于经过微调的医学专用模型(如 Med42, Huatuo, PMC_LLaMA)。许多医学模型在知识驱动任务上甚至无法输出有效结果(Valid Output)。 任务难度差异:数据驱动任务相对容易,但知识驱动任务(尤其是涉及复杂推理的)对所有模型都是巨大挑战。 微调效果:多任务微调(Multi-task fine-tuning)比单任务微调效果更好,说明不同 EHR 任务间存在共享的推理结构。
3.2. 关键数据与图表解读
Table 3 (Synthea Results) & Table 6 (eICU Results): Gemini 2.5 在数据驱动的理解任务(D-U1)上达到 98% 的准确率,但在知识驱动的推理任务(K-R1 死亡率预测)上 AUC 仅约为 58%,显示出明显的“高智商、低专业”特征。 医学模型(如 MedAlpaca)在大部分任务上的得分为个位数或无法输出,表明它们缺乏处理结构化数据的预训练。
Figure 2 (Input Formats): 自然语言描述最有利于数据驱动的推理任务(Data-Driven Reasoning),因为它将表格转化为模型熟悉的文本叙述。 图结构表示最有利于理解任务(Understanding),帮助模型捕捉字段间的关联。 对于知识驱动任务,没有任何一种格式能带来一致的提升,说明瓶颈在于模型内在的医学推理能力而非输入形式。
Table 4 (EHRMaster Performance): EHRMaster 在 Gemini 1.5 上实现了显著提升,特别是在算术密集型任务(D-R4/R5)上达到了 100% 准确率(相比之下基线模型仅 20-70%),证明了引入代码解释器进行计算的必要性。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
医学模型的溃败:大多数医学 LLM 是在非结构化的生物医学文献或临床笔记上训练的,缺乏对“字段-值”对(Field-Value Pairs)和表格逻辑的归纳偏置。这导致它们在面对结构化输入时,不仅无法调用医学知识,甚至无法理解基本的表格结构。 EHRMaster 的优势:该方法成功地将“逻辑规划”与“精确计算”解耦。LLM 擅长规划和语义对齐,但由于幻觉问题不擅长直接计算。通过生成 Python 代码来处理过滤和聚合,EHRMaster 规避了 LLM 的短板。
4.2. 理论贡献 (Theoretical Contributions)
分类体系:提出了 EHR 任务的二维分类法(数据/知识 × 理解/推理),为后续研究提供了细粒度的评估维度。 基准建立:EHRStruct 填补了结构化 EHR 数据综合评估的空白,特别是引入了 Synthea 和 eICU 双源数据验证,增强了结论的鲁棒性。
4.3. 实践启示 (Practical Implications)
对模型开发者:未来的医学 LLM 预训练必须包含大量结构化数据(如 SQL 数据库转储、表格数据),而不仅仅是医学文献。 对应用开发者:在构建临床辅助系统时,不要直接依赖 LLM 进行数值计算或风险评分,应采用类似 EHRMaster 的 "Code-as-Tool" 策略。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:目前主要关注单轮问答,未涉及多轮对话;主要针对单一表格或关联性较简单的表格,未涉及极其复杂的跨库 Join 操作。 未来方向: 引入迭代式、适应性的治疗规划评估(考虑患者对药物的实时反应)。 探索多模态(文本+表格+时间序列)的联合建模。
5. 结论 (Conclusion)
6. 核心参考文献 (Core References)
Synthea Dataset: Walonoski, J., et al. (2018). Synthea: An approach, method, and software mechanism for generating synthetic patients and the synthetic electronic health record. JAMIA. eICU Dataset: Pollard, T. J., et al. (2018). The eICU Collaborative Research Database, a freely available multi-center database for critical care research. Scientific Data. TableMaster: Cao, L., & Liu, H. (2025). Tablemaster: A recipe to advance table understanding with language models. arXiv. LLM4Healthcare: Zhu, Y., et al. (2024). Prompting large language models for zero-shot clinical prediction with structured longitudinal electronic health record data. arXiv. DeLLiriuM: Contreras, M., et al. (2024). DeLLiriuM: A large language model for delirium prediction in the ICU using structured EHR. arXiv.
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment