论文信息
标题 (Title):Using LLMs for Multilingual Clinical Entity Linking to ICD-10
作者 (Authors):Sylvia Vassileva, Ivan Koychev, Svetla Boytcheva
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2509.04868
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):临床实体链接,即将临床文本中的术语(如诊断)对应到标准分类(如ICD-10)中的代码,是医疗信息提取的关键环节
。 自动化此过程能极大简化医疗专业人员的工作并确保编码的一致性 。 本研究旨在提出并评估一种利用大型语言模型(LLMs)在不同语言中(西班牙语和希腊语)将临床术语链接到ICD-10代码的方法 。 方法 (Methods):研究提出了一种完全无监督的多阶段流程(pipeline)
。 首先,系统使用特定语言的临床词典对文本中无歧义的术语进行精确匹配 。 对于词典未能匹配的术语,则进入第二阶段,利用GPT-4.1模型和“在情境中学习”(in-context learning)技术(提供一个示例),在完整的出院小结上下文中预测其对应的ICD-10代码 。 结果 (Results):该系统在西班牙语和希腊语的基准数据集上均取得了优异的结果。 在西班牙语CodiEsp数据集上,ICD-10大类的F1分数达到0.89,亚类达到0.78
。 在希腊语ElCardioCC数据集上,F1分数达到0.85 。 实验证明,结合了词典和GPT-4.1的混合模型性能最佳 。 结论 (Conclusion):研究提出的无监督方法,结合了词典匹配的精确性和大型语言模型的鲁棒性,能够高效、准确地完成多语言环境下的ICD-10编码任务,其性能甚至优于许多有监督模型
。 这证明了LLMs在无需额外微调的情况下,解决实际医疗编码问题的巨大潜力 。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:医疗编码,特别是将临床文本中的实体链接到国际疾病分类第10版(ICD-10)这类标准分类,是医疗管理和研究中的一项核心任务
。 ICD-10已被翻译成40多种语言,并在100多个国家使用,是全球性的标准 。 自动完成这项任务意义重大。 核心研究问题 (RQs):在多语言环境中自动进行临床命名实体识别(NER)和链接极具挑战性,主要障碍包括:缺乏标注好的数据集、缺少领域专用的语言工具和模型,以及临床数据的敏感性限制了其访问和使用
。 这些因素严重制约了传统有监督模型的开发 。 因此,本文要回答的核心研究问题是: 如何构建一个有效的、完全无监督的(unsupervised)方法,用于在不同语言的临床文本中将实体链接到ICD-10代码?
这是一个新的问题,因为它尝试利用最新的生成式AI技术(LLMs)来绕过传统方法对大规模标注数据的依赖,这在资源稀缺的多语言临床场景中尤为关键。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:
有监督/混合方法:已有研究探索了多种方法。在西班牙语上,基于BERT的有监督方法取得了0.517的平均精度(MAP)和0.679的F1分数
。在法语、英语等其他语言中,混合方法(如词典、规则、神经网络)的F1分数在0.694到0.8586之间 。 LLM方法:近期,研究者开始探索LLMs用于ICD-10编码。早期尝试效果不佳,但随着模型成熟和提示工程技术的进步,结果有所改善,准确率可达0.86-0.89
。 然而,在本文关注的CodiEsp(西班牙语)数据集上,先前使用GPT-4的研究报告的F1分数相对较低,仅为0.225至0.305 。
研究缺口 (Gap):现有文献表明,虽然LLM在该领域展现出潜力,但其在特定、高难度的多语言基准测试(如CodiEsp)上的表现仍有很大的提升空间。 先前的LLM方法未能达到与传统有监督方法相媲美、甚至超越的水平。 本文旨在通过设计一个更优化的混合流程来填补这一性能差距。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:本文的目标是提出并验证一个完全无监督的、可轻松适应多种语言的临床实体链接方法,以实现高精度的ICD-10自动编码
。 核心假设/命题:本文的核心假设是,一个结合了高精度词典匹配(处理简单、明确的术语)和强大LLM的情境学习能力(处理复杂、模糊或词典外术语)的混合无监督流程,能够达到甚至超过需要大量标注数据训练的有监督模型的性能
。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究采用定量 (Quantitative) 的研究范式,通过在标准化的基准数据集上进行实验,以精确的性能指标(精确率、召回率、F1分数)来评估所提出方法的有效性。
方法论:
关键解决方案:本文提出了一种两阶段混合流程 (two-stage hybrid pipeline),如图1所示
。 第一阶段:词典搜索 (Dictionary Search)。对于给定的一个临床术语(mention),系统首先在一个特定语言的大规模ICD-10词典中进行精确匹配。 如果找到一个无歧义的对应代码,则直接采纳该结果
。 第二阶段:LLM在情境中学习 (LLM In-Context Learning)。如果词典搜索失败(未找到或有多个匹配),系统则将该术语连同其所在的完整出院小结文本一起提交给一个大型语言模型(GPT-4.1)
。 通过提供一个包含已标注术语和代码的示例(即“one-shot learning”),引导LLM在上下文中为目标术语生成最合适的ICD-10代码及解释 。
与之前方法的特点和优势:
无监督性:与依赖大量标注数据的有监督模型相比,该方法完全不需要专门的训练数据,仅需ICD-10词典,极大地降低了应用门槛,尤其适用于资源稀缺的语言
。 兼具精确性与鲁棒性:该方法结合了词典匹配的高精确度(处理简单情况)和LLM的强大泛化与语境理解能力(处理复杂情况,如同义词、新术语和歧义)
。 高性能:相较于之前报告的纯LLM方法,本文设计的流程通过结合词典和优化的提示策略,取得了显著更优的性能
。
2.2. 数据来源与样本 (Data Source & Sample)
评估数据集:
CodiEsp:一个西班牙语临床数据集,包含1000份由医学专家标注了ICD-10诊断和操作代码的出院小结。 本研究仅使用其中的诊断部分
。 ElCardioCC:一个希腊语临床数据集,包含1000份由心脏病专家撰写和标注的去标识化出院信函,标注了与主诉、诊断、病史等相关的ICD-10代码
。
辅助数据(词典):
研究人员为西班牙语和希腊语分别编译了ICD-10词典
。 西班牙语词典:包含约88,000个术语及其ICD-10代码(最多4位),数据源为官方ICD-10规范和CodiEsp训练集
。 希腊语词典:包含约11,500个术语及其3位ICD-10代码,数据源为官方ICD-10规范和ElCardioCC训练集
。
2.3. 操作化与测量 (Operationalization & Measurement)
核心概念操作化:研究的核心任务是实体链接 (entity linking),即为一段给定的文本(a mention, 如“headache”)分配一个最合适的ICD-10代码(如“R51”)
。 本文不涉及术语的识别(即确定哪些文本是mention),而是假设mention已给定 。 测量:
性能通过标准的分类指标来衡量:精确率 (Precision, P), 召回率 (Recall, R), 和 F1分数 (F1-score)。
在西班牙语CodiEsp数据集上,评估分别在两个层级进行:大类 (category)(3位代码,任务较简单)和亚类 (subcategory)(4位及以上代码,任务更具体,更难)
。 在希腊语ElCardioCC数据集上,评估在大类层级进行
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
GPT-4.1 优于 GPT-4o:在所有实验中,GPT-4.1的性能均显著优于GPT-4o,主要原因是GPT-4.1具有更平衡的精确率和召回率,而GPT-4o虽然精确率尚可,但召回率极低,因为它未能为所有给定的术语生成代码
。 混合方法效果最佳:将词典匹配方法与LLM方法相结合的策略取得了最佳性能。 词典方法提高了系统的整体F1分数
。 One-Shot 优于 Zero-Shot:在大多数情况下,为LLM提供一个示例(one-shot)比不提供示例(zero-shot)效果更好,尤其是在使用性能更强的GPT-4.1时
。 实现了SOTA性能:最终的最佳模型(词典 + GPT-4.1 one-shot)在希腊语数据集上实现了0.85 F1,在西班牙语数据集上实现了0.89 F1(大类)和0.78 F1(亚类)
。 这些结果远超先前报道的基于LLM的方法,并优于许多有监督模型 。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图1:实体链接流程图 (The process for entity linking)
展示内容:该图直观地展示了本文提出的两阶段混合方法的工作流程。 输入是“出院小结”和“提及的术语(Mentions)”。 术语首先进入“词典搜索”模块,若能精确匹配,则直接输出。 未匹配的术语则连同出院小结一起被送入“LLM在情境中学习”模块(使用GPT-4.1),由LLM进行预测。 最终,两个阶段的结果被合并输出。
揭示关系:该图清晰地揭示了解决方案的核心逻辑:一个结合了快速、精确的确定性方法(词典)和灵活、智能的概率性方法(LLM)的互补性策略。 这种设计旨在最大化效率和准确性。
表1:模型在希腊语和西班牙语数据集上的评估结果
展示内容:该表是本研究的核心成果展示。 它详细列出了不同模型组合(纯词典、不同版本的GPT模型、0-shot/1-shot、词典+LLM组合)在希腊语和西班牙语(大类和亚类)数据集上的精确率(P)、召回率(R)和F1分数。
揭示关系与数据支撑:
基线性能:纯词典(Dict)方法在希腊语和西班牙语上的F1分数分别为0.657和0.546/0.528,这是一个可靠的基准
。 模型对比:GPT-4.1(F1约0.815-0.823)的表现远超GPT-4o(F1约0.465-0.589),主要差距在召回率上,表明GPT-4.1更能胜任这个任务
。 最佳性能:表中用粗体和下划线标出的最高分均来自**“Dict+GPT-4.1”**的组合。 例如,在西班牙语大类上,"Dict+GPT-4.1 1-shot" 取得了0.891的F1分数;在希腊语上,"Dict+GPT-4.1 1-shot" 取得了0.856的F1分数。 这组数据强有力地证明了本文的核心假设——混合方法是实现最佳性能的关键。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
解释研究发现:研究发现表明,通过精心的流程设计和提示工程,LLMs可以在不需要微调的情况下,有效解决高度专业化和标准化的医疗编码任务。 词典方法作为“保底”策略,确保了对常见、明确术语的高精度识别,而LLM则负责处理更棘手的模糊、上下文依赖和未登录词问题。 GPT-4.1的成功关键在于其更强的遵循复杂指令和处理长文本上下文的能力,从而显著提高了召回率,解决了GPT-4o的短板
。 回答研究问题:这些发现成功地回答了引言中提出的研究问题。 结果证明,一个无监督的、结合词典和LLM的混合方法是可行且高效的,其性能足以在多语言临床实体链接任务中达到甚至超越许多有监督方法。
4.2. 理论贡献 (Theoretical Contributions)
阐明本研究对现有理论的贡献:
验证了LLM在零/少样本学习中的潜力:本研究为LLMs在专业领域(临床NLP)的零/少样本学习能力提供了强有力的实证证据,展示了在没有领域特定训练数据的情况下解决复杂分类问题的可能性。
提出了一种有效的混合范式:本研究提出的“确定性方法(词典)+概率性方法(LLM)”的混合范式,对于其他需要高精度和高覆盖率的NLP任务(如其他类型的实体链接、知识图谱构建)具有重要的借鉴意义。
对业界的影响:这项研究成果为医疗信息技术行业提供了一个即时可用的、成本效益高的解决方案。 医院和医疗服务提供商可以利用类似的方法来开发辅助编码工具,以减轻医疗专业人员的行政负担,提高编码的准确性和效率,最终改善医疗数据的质量,用于计费、统计和研究
。
4.3. 实践启示 (Practical Implications)
对实践者的指导意义:对于希望利用AI自动化处理医疗文本的实践者(如医院IT部门、医疗AI公司),本研究提供了具体的指导:
不要完全抛弃传统方法,将词典等规则系统与LLM相结合,可以取长补短。
模型选择至关重要,不同版本的LLM在处理长文本和复杂指令方面的能力差异巨大。
提示工程(Prompt Engineering)是发挥LLM能力的关键,一个结构良好、包含清晰指令和高质量示例的提示是成功的核心。
4.4. 局限性与未来研究 (Limitations & Future Research)
本研究存在的局限性:
语言覆盖有限:实验仅在西班牙语和希腊语上进行,其结论能否推广到其他语言(尤其是与英语差异更大的语言)尚待验证
。 依赖专有模型:研究使用了Azure OpenAI的闭源模型,这带来了成本高昂和数据隐私(无法在医院本地部署)的问题,限制了其在某些环境中的实际应用
。 任务范围局限:研究仅关注实体链接,而忽略了上游的实体识别(mention detection)任务。 在真实场景中,识别环节的错误会传导并影响链接的准确性
。
为后续研究者指明的方向:
探索开源和小型模型:未来应研究使用可本地部署、更经济的开源小型LLMs,并通过微调等技术提升其性能,以解决成本和隐私问题
。 端到端解决方案:未来的研究应致力于解决从实体识别到链接的端到端(end-to-end)问题,探索使用LLM同时完成这两个任务
。 扩展到更多语言和分类系统:将该方法应用于更多语言和其他医疗编码系统(如SNOMED CT),以验证其通用性。
5. 结论 (Conclusion)
本文提出并成功验证了一种用于多语言临床实体到ICD-10链接的无监督方法。 该方法巧妙地将高精度的词典匹配与GPT-4.1强大的情境学习能力相结合,在无需任何领域特定训练数据的情况下,于西班牙语和希腊语的基准测试中取得了优异的性能(F1分数分别达到0.89和0.85)。 这项工作不仅为自动化医疗编码提供了一个高效、可扩展的解决方案,也清晰地展示了大型语言模型在解决复杂、专业的现实世界问题方面的巨大潜力。
6. 核心参考文献 (Core References)
Miranda-Escalada, A., et al. (2020). Overview of automatic clinical coding: annotations, guidelines, and solutions for non-english clinical cases at codiesp track of CLEF eHealth 2020.
重要性:该文献详细介绍了CodiEsp数据集,这是本研究用于评估西班牙语模型性能的核心基准,为理解评估背景提供了必要信息
。
Dimitriadis, D., et al. (2025). Overview of ElCardioCC Task on Clinical Coding in Cardiology at BioASQ 2025.
链接:CLEF 2025 Working Notes (作为2025年的会议论文,正式链接可能尚未发布)
重要性:该文献介绍了ElCardioCC数据集,是本研究用于评估希腊语模型性能的基准,对理解另一半实验至关重要
。
Boyle, J. S., et al. (2023). Automated clinical coding using off-the-shelf large language models.
重要性:此文献是先前使用LLMs(包括GPT-4)在CodiEsp上进行编码的代表性工作,其报告的较低F1分数(0.225)为本研究的显著性能提升提供了重要的对比基准
。
Puts, S., et al. (2025). Developing an icd-10 coding assistant: Pilot study using roberta and gpt-4 for term extraction and description-based code selection.
重要性:与上一篇类似,该研究也使用了GPT-4处理CodiEsp任务,并报告了0.305的F1分数。 这进一步凸显了本研究通过改进方法所取得的巨大进步
。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment