MedRep:面向通用电子健康记录基础模型的医学概念表示

电子健康记录 (EHR) 基础模型因其在各类医疗任务中性能的提升,已成为一个值得深入探索的领域。 尽管进展迅速,但仍存在一个根本性局限:处理词表外 (out-of-vocabulary) 的未知医疗代码。 这一问题限制了 EHR 基础模型的通用性,也阻碍了采用不同词汇表训练的模型间的集成。 为应对此问题,我们基于观测健康数据科学与信息学联盟 (OMOP) 通用数据模型 (CDM),提出了 MedRep 方法。该方法旨在为 EHR 基础模型提供整合的医学概念表示,并为患者轨迹提供基础的数据增强策略。 在概念表示学习方面,我们通过大型语言模型 (LLM) 的提示,为每个概念赋予精简定义以丰富其信息内涵,并通过 OMOP 词汇表的图谱本体增强基于文本的表示。 轨迹增强策略通过将选定概念随机替换为表示相近的其他相似概念,旨在训练模型处理词表外概念的能力。 最后,我们证明,采用 MedRep 训练的 EHR 基础模型在外部数据集上能更好地维持预测性能。 我们的代码实现已在 https://github.com/kicarussays/MedRep 公开。

1. 研究目标

1.1 研究目标与实际问题

  • 研究目标:
    提出并验证一个名为 MedRep 的新策略。该策略旨在学习通用医学概念表示 (medical concept representation),用于电子健康记录基础模型 (EHR foundation models)。核心目标是让这些模型能够更好地处理来自不同医疗机构、使用不同词汇(即使都遵循 OMOP CDM 标准)的 EHR 数据,特别是在外部验证 (external validation) 场景下保持良好的性能。

  • 想要解决的实际问题:

    1. EHR 基础模型的“词汇不兼容”问题: 尽管现在有很多基于 EHR 数据训练的基础模型(类似医疗领域的 GPT/BERT),但它们存在一个根本限制:无法处理训练词汇之外的未知医学代码 (unseen medical codes out of the vocabulary)

      "Despite the rapid advances, there exists a fundamental limitation: Processing unseen medical codes out of the vocabulary. This problem limits the generality of EHR foundation models..."

    2. OMOP CDM 标准的局限性: 虽然 OMOP CDM (Observational Medical Outcomes Partnership Common Data Model) 提供了一个通用的数据模型和统一的词汇表,旨在标准化不同来源的 EHR 数据,但实际应用中仍然存在问题:

      • 隐私限制: 不同医院的 OMOP 数据通常不能直接合并训练模型。

      • 同一概念的不同 ID: 即使在 OMOP 标准下,同一个医学概念(如“阿司匹林 100mg 口服片”)可能对应多个不同的 Concept ID。模型在一个医院训练时只见过其中一些 ID,到另一个医院遇到新的、但语义相同的 ID 时,会将其视为完全不同的东西,导致性能下降。

      "However, merging OMOP CDM-based EHR data from different hospitals is still strictly prohibited... Additionally, hospitals using OMOP CDM may use different concept IDs for the same concept... As a result, when a model is transferred to another institution, it may fail to recognize semantically similar but previously unseen concepts, limiting its ability to generally operate across external datasets."

    3. 模型泛化能力受限: 上述问题导致在一个机构训练的模型,直接拿到另一个机构的数据上测试(外部验证)时,性能会显著下降,限制了模型的通用性 (generality) 和跨机构部署的可行性。

  • 问题的新颖性:

    • 虽然 EHR 模型的泛化性一直是个问题,但这篇论文特别聚焦于 OMOP CDM 标准下仍然存在的词汇不兼容问题,这是一个更细致但关键的挑战。

    • 它提出了一种结合多种信息源(LLM 生成的文本描述、OMOP 图谱本体)策略。

    • 强调并系统性地进行了跨数据集的外部验证,这是评估模型泛化性的关键,但在以往研究中可能不够充分。

1.2 科学假设

本文要验证的核心科学假设是:通过 MedRep 策略学习到的医学概念表示,并结合其提出的轨迹增强方法来训练 EHR 基础模型,可以显著提高这些模型在处理来自不同机构(具有不同 OMOP 词汇使用习惯)的 EHR 数据时的性能稳定性(即在外部验证中保持较好的预测能力),优于传统训练方法或仅依赖单一信息源的方法。

1.3 相关研究

论文在 “2. Related Work” 部分回顾了相关研究:

  • EHR 基础模型 (EHR foundation models):

    • 介绍了多种基于 Transformer 架构(如 BERT, GPT)的 EHR 模型,如 BEHRT (Li et al., 2020), Med-BERT (Rasmy et al., 2021), TransformEHR (Yang et al., 2023), ETHOS (Renc et al., 2024), BEHRT-DE (Kim et al., 2024b) 等。

    • 肯定了这些模型在各种下游任务(如死亡率预测、药物推荐)上的潜力。

    • 但指出它们在外部验证中的性能保持能力尚未被充分探索。

  • MedTok (并发工作):

    • 提到了一个同期的工作 MedTok (Su et al., 2025),它也试图解决医学代码统一的问题,方法是将原始代码量化到一个统一的码本 (codebook) 中。

    • 与 MedRep 的区别:

      • 知识来源: MedTok 基于多种词汇表 (>600K) 的文本信息和 PrimeKG 的关系知识。MedRep 则专注于 OMOP 词汇表及其图谱本体。

      • 核心方法: MedTok 学习离散的码本。MedRep 学习连续的概念表示向量,并包含轨迹增强。

      • 评估重点: MedRep 明确强调了在独立数据集上的外部验证。

1.4 研究归类与领域专家

  • 研究归类:

    • 医疗信息学 (Medical Informatics) / EHR 分析

    • 表征学习 (Representation Learning)

    • 自然语言处理 (NLP) 在医疗中的应用

    • 机器学习模型泛化 / 域适应 (Domain Adaptation/Generalization)

    • 数据增强 (Data Augmentation)

  • 值得关注的研究员:

    • 论文作者团队: Junmo Kim, Namkyeong Lee, Jiwon Kim, Kwangsoo Kim (通讯作者)。隶属于首尔大学 (SNU) 和 KAIST,涉及生物工程、医学信息学、工业工程、转化医学等多个交叉学科。Kwangsoo Kim 实验室似乎在 EHR 和 OMOP 应用方面有持续研究。

    • EHR 基础模型研究者: Yikuan Li (BEHRT), Laila Rasmy (Med-BERT), Zhichao Yang (TransformEHR)。

    • OMOP CDM 研究者: Paul E Stang 等 (OMOP 原始设计者)。

    • 并发工作 MedTok 的作者: Xiaorui Su, Marinka Zitnik 等。

    • 表征学习/图学习研究者: Yanqiao Zhu (GRACE 框架), Zhizhong Li (LwF)。

2. 研究方法

2.1 新思路、方法与模型

MedRep 包含两个核心组件:概念表示学习 (Concept representation learning) 和 轨迹增强 (Trajectory augmentation)

  1. 概念表示学习 (Concept Representation Learning - Section 3.1 & 3.2, Figure 1)

    • 目标: 为 OMOP 词汇表中的每个医学概念(如一个具体的诊断、药品、检查项目)学习一个丰富且通用的向量表示(embedding)。

    • 方法:

      • (a) 基于文本的表示 (Text-based Representation):

        • 信息增强: 由于 OMOP 概念名通常很简洁(如 "Aspirin 100mg Oral Tablet"),信息量有限。论文使用大型语言模型 (LLM)(如 ChatGPT-4o-mini)为每个概念生成一段详细的临床背景和用途描述 dk。针对不同领域(条件、药物、测量、操作)使用了不同的 Prompt(见附录 Table 5)。

        • 编码: 使用预训练的掩码语言模型 (Masked Language Model, MLM),如 DeBERTa (He et al., 2020),对生成的描述 dk 和概念名 ck,name 进行编码,得到每个概念的初始文本表示 rtext,k

      • (b) 补充关系信息 (Complementing Relational Information):

        • 利用图谱: 使用 OMOP 词汇表的官方图谱本体 (graph ontology)。这个图谱定义了概念之间的关系(如“阿司匹林”是“非甾体抗炎药”的一种)。

        • 图神经网络 (GNN) + 对比学习 (Contrastive Learning): 基于初始的文本表示 Rtext 作为节点特征,在 OMOP 图谱上训练一个 GNN 编码器 g。训练采用了 GRACE (Zhu et al., 2020) 框架,这是一种无监督的图对比学习方法,通过最大化同一节点在不同扰动视图下的表示相似度、最小化不同节点表示的相似度来学习图结构信息。

        • 无遗忘学习 (Learning without Forgetting, LwF): 为了防止 GNN 在学习图结构时丢失文本表示中的丰富信息(论文担心 GNN 容易区分连接节点导致特征塌陷),引入了 LwF (Li and Hoiem, 2017) 机制。通过 KL 散度损失 LKD,约束 GNN 输出的表示 Rgraph 与原始文本表示 Rtext 保持相似。

        • 最终表示 R GNN 编码器 g 的最终输出 R = g(X, A) 即为融合了文本和图谱信息的概念表示。

  2. 轨迹增强 (Trajectory Augmentation - Section 3.3, Figure 2)

    • 目标: 在训练 EHR 基础模型时,模拟遇到 OOV 概念的情况,提高模型对相似但不同 ID 概念的泛化能力。

    • 方法:

      • 寻找近邻: 利用第一步学到的概念表示 R,为每个概念 ck 找到语义上最接近的 Top-M 个邻居 Nk(基于表示向量的欧氏距离)。

      • 随机替换: 在处理每个患者的医疗记录序列(轨迹 t)时,随机选择其中的一部分概念 cki (属于集合 Ik),并将其替换为其邻居集 Nki 中的一个随机选择的概念 čik。其他未被选中的概念保持不变。

      • 训练应用: 使用增强后的轨迹 Augment(t) 来训练 EHR 基础模型(如 BEHRT, Med-BERT)。

  • MedRep 框架应用 (Figure 2):

    • 在**模型开发(训练/微调)**阶段:

      • 使用 MedRep 预训练好的概念表示 R 替换掉模型原始的嵌入层权重。

      • 冻结这个嵌入层(不再更新)。

      • 使用经过轨迹增强的数据进行训练。

    • 在**外部验证(推理)**阶段:

      • 同样使用预训练的表示 R 作为嵌入层。

      • 模型可以直接处理来自外部数据集的概念 ID,只要这些 ID 在 MedRep 的表示词汇表中。

2.2 解决方案之关键

关键在于“表示 + 增强”:

  1. 高质量的通用概念表示: 通过融合 LLM 生成的丰富文本描述和 OMOP 图谱的结构化关系,学习到比仅基于 ID 或简单名称更具泛化性的概念向量。

  2. 针对 OOV 的数据增强: 轨迹增强直接模拟了模型在实际部署中可能遇到的“词汇漂移”问题,让模型在训练阶段就学会处理语义相似但 ID 不同的概念。

2.3 与之前方法的特点和优势

  • 更强的泛化性: MedRep 的核心目标是提升模型在外部数据集上的表现,直接应对跨机构部署的挑战。

  • 更丰富的表示: 结合了文本语义(LLM+MLM)和图结构(OMOP Ontology+GNN+Contrastive Learning)两种信息源,理论上表示更全面。

  • 主动应对 OOV: 轨迹增强是一种主动策略,迫使模型学习识别相似概念,而不是像传统模型那样简单地将未知 ID 视为“unknown”。

  • 基于标准但超越标准: 依赖 OMOP CDM 标准,但认识到其局限性并提出了解决方案,更贴近实际应用挑战。

  • 与 MedTok 的比较: MedRep 学习连续表示并进行数据增强,可能比 MedTok 的离散码本方法保留更多细微语义差异,且轨迹增强直接针对泛化性训练。

3. 实验设计

3.1 实验设计

  1. 数据集:

    • 训练/内部验证: 使用 MIMIC-IV (v2.2, Johnson et al., 2023) 数据集,并已转换为 OMOP CDM 格式。随机划分为 70% 开发(训练+验证),15% 测试。

    • 外部验证: 使用另外两个独立的 OMOP CDM 数据集:

      • EHRSHOT (Wornow et al., 2023):一个公开的、用于少样本评估的 EHR 基准数据集。

      • SNUH:来自首尔大学医院 (Seoul National University Hospital) 的私有数据集。

    • 关键点: 这三个数据集虽然都基于 OMOP,但词汇使用存在差异(见 Table 2,MIMIC-IV 与 SNUH 之间有高达 35.86% 的概念 ID 不兼容)。

  2. 基础模型:

    • 选取了多种代表性的 EHR 模型作为基线:

      • RETAIN (Choi et al., 2017):基于 RNN 的早期经典模型(无需预训练)。

      • BEHRT (Li et al., 2020):基于 BERT 的早期 EHR 基础模型。

      • BEHRT-DE (Kim et al., 2024b):BEHRT 的变种,加入了领域嵌入。

      • MedBERT (Rasmy et al., 2021):另一个基于 BERT 的 EHR 基础模型,预训练任务略有不同。

    • 所有 Transformer 类模型都在 MIMIC-IV 上进行了预训练。

  3. 对比实验:

    • Baseline: 各基础模型在 MIMIC-IV 上训练/微调,然后在 MIMIC-IV (Internal), EHRSHOT (External), SNUH (External) 上评估。

    • + MedTok: 在 Baseline 基础上,应用 MedTok 的方法(论文中提到他们复现 MedTok 时,使用了 MedRep 的文本表示和 OMOP 图代替原始 MedTok 的输入源,以公平比较)。

    • + MedRep: 在 Baseline 基础上,应用 MedRep 的方法(替换嵌入层 + 轨迹增强)。

  4. 下游任务:

    • 选择了三个常见的 EHR 预测任务:

      • 院内死亡率 (In-hospital Mortality, MT)

      • 长住院时间 (Long Length of Stay, LLOS) (> 1 周)

      • 30 天内再入院 (Readmission, RA)

  5. 评估指标:

    • AUROC (Area Under the Receiver Operating Characteristic Curve):衡量模型的整体区分能力。

    • F1-score:综合考虑精确率和召回率,使用 Youden 指数确定的最佳阈值计算。

  6. 消融研究 (Ablation Studies - Table 4):

    • 基于表现最好的 MedBERT 模型,逐步分析 MedRep 各个组件(LLM 文本表示、图增强、轨迹增强)的贡献。

  7. 增强因子分析 (Figure 3):

    • 研究轨迹增强中替换比例(增强因子 M,即邻居数量,虽然原文似乎用 M 代表邻居数,图例用 MedRep+Number 表示因子,可能指替换比例或邻居数,需注意)对模型在内部和外部验证性能的影响。

3.2 实验数据与结果

  • 主要结果 (Table 3 - 平均性能):

    • MedRep 提升外部验证性能: 对于所有基础模型(RETAIN, BEHRT, BEHRT-DE, MedBERT),应用 MedRep 后,在外部数据集 (EHRSHOT, SNUH) 上的平均 AUROC 和 F1-score 普遍高于原始基线和应用 MedTok 的版本。

      • 例如,对于 MedBERT,基线外部平均 AUROC 约为 (0.7149+0.7707)/2=0.7428,F1 约为 (0.2790+0.3181)/2=0.2986。而 MedBERT+MedRep 的外部平均 AUROC 为 (0.7707+0.7707)/2=0.7707,F1 为 (0.3181+0.3181)/2=0.3181 (这里用了 Table 3 最后一行的 MedRep 结果)。提升是显著的。

    • MedRep 优于 MedTok: MedRep 在外部验证上的表现通常优于 MedTok。例如,MedBERT+MedRep 的外部 AUROC (0.7707) 高于 MedBERT+MedTok (0.7618)。

    • 内部验证性能保持: MedRep 在提升外部性能的同时,通常能保持甚至略微提升在内部验证集 (MIMIC-IV) 上的性能,而 MedTok 有时会导致内部性能下降(如 RETAIN+MedTok)。

      "MedRep outperformed MedTok in both internal and external validation across all the baselines."

  • 消融研究结果 (Table 4 - 基于 MedBERT 平均性能):

    • LLM 文本表示有效: 仅使用 LLM 文本表示(无图、无增强)比基线(可能指随机初始化或简单 ID 嵌入)有提升 (AUROC 0.7675 -> 0.7882)。

    • 图增强需谨慎: 文本+图表示(无增强)性能反而下降 (AUROC 0.7827),作者推测可能是特征塌陷。这凸显了 LwF 的重要性(虽然 LwF 结果没单独列,但最终 MedRep 结果好)。

    • 轨迹增强有效: 文本+增强(无图)性能有提升 (AUROC 0.7859)。

    • 组合效果最佳: 文本+图+增强 (完整 MedRep) 达到了最佳性能 (AUROC 0.8060, F1 0.3420)。这表明轨迹增强与图增强的表示结合能产生协同效应。

      "This implies that trajectory augmentation better reflected the general clinical information with relational information of concepts."

  • 增强因子影响 (Figure 3):

    • 轨迹增强总是能提高外部验证性能

    • 随着增强因子增加,外部性能先升后降(或趋于平稳),内部性能则可能略有下降。

    • 因子为 5 时,外部验证性能达到峰值,同时内部性能保持稳定。

3.3 对科学假设的支持

实验结果非常有力地支持了论文的科学假设:

  1. MedRep 提升了外部验证性能: Table 3 清晰显示,在多个模型、多个任务、两个外部数据集上,MedRep 都带来了性能提升,证明它确实提高了模型的泛化能力和对词汇差异的鲁棒性。

  2. 优于基线和 MedTok: MedRep 的效果通常优于不使用特殊表示的基线模型和使用 MedTok 的模型。

  3. 组件贡献明确: 消融研究(Table 4)表明,概念表示学习(尤其是结合图信息)和轨迹增强都对最终效果有贡献,且组合使用效果最好。

结论是,MedRep 策略及其包含的概念表示学习和轨迹增强方法,能够有效缓解 EHR 基础模型在跨机构应用中的词汇不兼容问题,显著提高其在外部数据集上的预测性能。

4. 论文贡献

4.1 论文贡献

  1. 提出了 MedRep 策略: 针对 OMOP CDM 标准下依然存在的词汇不兼容问题,提出了一套包含概念表示学习轨迹增强的创新解决方案。

  2. 开发了高质量的概念表示: 通过结合 LLM 生成的文本描述、OMOP 图谱本体和先进的图对比学习(GRACE+LwF)技术,生成了丰富且通用的医学概念向量表示。这些表示本身就是有价值的资源。

  3. 引入了有效的轨迹增强方法: 设计了一种基于相似概念替换的数据增强技术,专门用于提高模型对 OOV 概念的鲁棒性。

  4. 系统性地验证了外部泛化能力: 在多个独立数据集上进行了严格的外部验证,有力证明了 MedRep 在提升 EHR 模型跨机构通用性方面的价值。

  5. 公开了概念表示: 将训练好的概念表示公开发布,便于其他研究者使用和在此基础上构建更通用的 EHR 模型。

    "The representations used in the study are now released in our GitHub repository."

4.2 业界影响

  • 提高 EHR 模型的可移植性和共享性: MedRep 有望降低在不同医院部署和共享 EHR 基础模型的门槛,促进 AI 技术在更广泛医疗场景中的应用。

  • 推动 OMOP CDM 生态发展: 为基于 OMOP CDM 的模型开发提供了解决词汇层面挑战的新思路和工具,可能促进 OMOP 标准的进一步应用。

  • 为处理 OOV 问题提供新范式: MedRep 的思路(学习通用表示 + 针对性增强)可以启发其他领域处理类似 OOV 或域漂移问题的研究。

  • 促进资源共享: 公开的概念表示可以成为社区共享的基础资源,加速相关研究。

4.3 潜在应用场景和商业机会

  • 跨机构临床预测模型: 开发能够在多家医院(使用 OMOP CDM)部署运行的疾病风险预测、死亡率预测、再入院预测等模型。

  • 联邦学习增强: 在联邦学习场景下,使用 MedRep 的通用表示作为各参与方模型的共享嵌入层,可能提高联邦学习的效率和效果。

  • EHR 数据分析平台: 集成 MedRep 功能的 EHR 分析平台,可以提供更鲁棒、跨机构可比的分析结果。

  • 商业机会:

    • 提供预训练的 MedRep 概念表示服务。

    • 开发集成 MedRep 功能的 EHR 基础模型或 MLOps 平台。

    • 为医疗机构提供基于 MedRep 的模型迁移和验证服务。

4.4 工程师应关注的方面

  • 概念表示学习技术栈:

    • LLM Prompt 工程(用于生成描述)。

    • MLM 预训练(如 DeBERTa)。

    • 图神经网络 (GNN) 和图对比学习(如 GRACE)。

    • 无遗忘学习 (LwF) 的实现(如 KL 散度损失)。

  • OMOP CDM 数据模型和词汇表/图谱: 理解其结构、概念关系。

  • 数据增强技术: 实现基于近邻的概念替换。

  • 模型训练与评估:

    • 如何将预训练表示集成到下游模型(替换嵌入层、冻结)。

    • 设置和执行内部/外部验证流程。

    • 使用 AUROC, F1 等指标进行评估。

  • 计算资源管理: 

  • 处理大规模概念表示(论文中提到 >1.8M 概念)和图谱需要有效的内存管理和可能的分布式计算策略。GNN 训练(尤其是对比学习)可能需要较多 GPU 资源。

  • 相关库和工具: 熟悉 HuggingFace Transformers (用于 LLM, DeBERTa), PyTorch Geometric 或 DGL (用于 GNN), 可能还需要用于大规模向量索引和近邻搜索的库 (如 Faiss)。

  • 5. 未来值得进一步探索的问题和挑战

    5.1 未来探索的问题和挑战

    论文在 Limitations 部分以及研究本身暗示了以下未来方向:

    1. 扩展概念覆盖范围 (论文提及): 当前仅使用了约 1.8M OMOP 概念,而 OMOP 完整词汇量超过 9M。未来需要将 MedRep 扩展到完整的 OMOP 词汇表,以获得更全面的覆盖。这需要解决更大规模数据处理和计算的挑战。

    2. 整合更多类型的数据 (论文提及): 当前主要依赖 OMOP 标准词汇表中的概念(条件、药物、测量、操作)。未利用 OMOP CDM 中的 Observation 表,该表包含大量非结构化文本(如社交史、家族史、检查细节)。如何表示和整合这些非结构化但重要的临床信息到基础模型中是一个重要方向。

    3. 探索更高级的增强策略 (论文提及): 当前的轨迹增强方法(随机替换)相对简单。可以探索更复杂的增强技术,例如:

      • 基于上下文的替换: 根据概念在轨迹中的具体上下文选择更合适的相似概念进行替换。

      • 生成式增强: 使用生成模型创造新的、符合数据分布但包含 OOV 概念的合成轨迹。

      • 对抗性增强: 生成能够“欺骗”模型的增强样本,以提高其鲁棒性。

    4. 时间动态性表示: 当前的概念表示主要是静态的。如何更好地捕捉医学概念随时间演变的含义或关系(例如,新药的出现、诊断标准的变化)?

    5. 多模态融合: EHR 数据不仅仅是代码和文本,还包含影像、信号等。如何将 MedRep 的概念表示与其他模态的表示进行融合?

    6. 可解释性: MedRep 提升了性能,但其内部机制(如概念表示的哪些维度捕捉了什么信息)的可解释性仍需探索。

    7. 下游任务的适应性: MedRep 主要验证了预测任务。它在生成任务(如生成出院小结)或更复杂的推理任务上的效果如何?

    5.2 新技术和投资机会

    • 通用医疗概念表示服务: 提供高质量、预训练、覆盖广泛的医学概念向量表示,作为医疗 AI 开发的基础设施。

    • 跨机构 EHR 模型部署平台: 开发支持模型快速迁移、验证和部署到不同 OMOP CDM 实例的 MLOps 平台,内置类似 MedRep 的泛化增强功能。

    • 高级数据增强工具包(医疗版): 专门为 EHR 数据设计的数据增强工具,包含多种策略以提高模型鲁棒性和泛化性。

    • 融合非结构化信息的 EHR 模型: 能够同时处理结构化代码和非结构化笔记的下一代 EHR 基础模型。

    • 基于 OMOP CDM 的联邦学习解决方案: 结合通用概念表示,提高联邦学习在医疗领域的效率和效果。

    6. 论文存在的不足及缺失

    • 概念表示的评估不够直接: 论文主要通过下游任务的性能来间接评估概念表示的质量。缺乏对概念表示本身的内在评估,例如,是否能准确捕捉语义相似性、层次关系、反义关系等。可以进行一些概念相似度排名、类比推理等任务来直接评估表示。

    • LwF 的必要性与效果分析不足: 论文提到使用 LwF 来防止信息丢失,但消融研究(Table 4)显示仅用图增强效果反而下降,最终组合才最好。这使得 LwF 在其中的确切作用和必要性(相比其他正则化方法或简单加权融合)不够清晰。需要更细致的消融实验来证明 LwF 的贡献。

    • 轨迹增强机制的简单性: 随机替换可能引入噪声或不符合临床逻辑的序列(例如,用一个完全不同治疗领域的药物替换当前药物)。其有效性可能依赖于底层表示的质量和邻居选择的准确性。

    • 对计算成本的讨论缺失: 学习概念表示(特别是 LLM 生成描述、MLM 预训练、GNN 对比学习)和轨迹增强(需要实时近邻查找)的计算开销可能很大,论文未对此进行讨论。

    • MedTok 对比的公平性问题: 论文提到在复现 MedTok 时修改了其输入源(用了 MedRep 的文本表示和 OMOP 图)。虽然可能是为了公平比较某些方面,但这使得对比结果不能完全代表原始 MedTok 方法的性能。

    • 对“增强因子=5”最优的解释不足: 为什么增强因子为 5 时效果最好?这是否具有普适性,还是只适用于当前数据集和任务?缺乏理论或更深入的实证分析。

    • 潜在偏见问题: LLM 生成的描述、OMOP 图谱本身、以及训练数据(MIMIC-IV)都可能带有偏见。MedRep 是否会学习甚至放大这些偏见?论文未讨论。

    需要进一步验证和存疑的:

    • MedRep 学习到的表示是否真的捕捉到了细微的语义差别(例如,区分同一药物的不同剂型、厂家)?

    • 轨迹增强在多大程度上依赖于 Top-M 邻居选择的准确性?如果邻居选择不准,是否会严重损害性能?

    • MedRep 对于罕见概念(在训练数据和 OMOP 图谱中都很少出现)的处理效果如何?

    • 将 MedRep 应用于非 OMOP 数据集(可能需要先进行概念映射)的效果如何?

    • 除了预测任务,MedRep 对生成式任务(如临床笔记生成)的帮助有多大?


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: