一个基于大型语言模型的统一生物医学命名实体识别框架


论文信息

  • 标题 (Title): A Unified Biomedical Named Entity Recognition Framework with Large Language Models

  • 作者 (Authors): Tengxiao Lv, Ling Luo, Juntao Li, Yanhua Wang, Yuchen Pan, Chao Liu, Yanan Wang, Yan Jiang, Huiyi Lv, Yuanyuan Sun, Jian Wang, Hongfei Lin

  • 发表年份 (Year): 2025

  • 原文链接 (URL): https://github.com/dreamer-tx/LLMNER

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective): 生物医学命名实体识别(BioNER)对于医学信息提取至关重要,但现有方法在处理嵌套实体、实体边界模糊和跨语言泛化方面面临挑战 。本研究旨在提出一个基于大型语言模型(LLMs)的统一BioNER框架,以解决上述问题

  • 方法 (Methods): 研究将BioNER任务重构为一个文本生成任务,并设计了一种创新的“符号化标注策略”,用以统一处理扁平实体和嵌套实体,并能明确标注其边界 。为增强模型的多语言(中、英文)和多任务泛化能力,研究在多个数据集上进行了双语联合微调 。此外,还引入了一个基于对比学习的“实体选择器”,通过利用边界敏感的正负样本来过滤掉错误的预测结果

  • 结果 (Results): 在四个基准数据集和两个未见过的数据集上的实验表明,该方法取得了当前最优(state-of-the-art)的性能,并展现出强大的跨语言零样本泛化能力

  • 结论 (Conclusion): 本研究成功构建了一个统一的BioNER框架,其设计的符号化标注策略、多数据集联合训练和对比性实体选择器使其能够高效、准确地识别中英文文本中的扁平及嵌套实体,性能超越了现有的主流方法

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景: 生物医学文本(如电子病历、医学教科书)中蕴含着海量关键信息,对临床决策和科研至关重要 。然而,这些文本非结构化的特性限制了其直接应用,因此,从中提取结构化信息,特别是进行生物医学命名实体识别(BioNER),已成为关键挑战

  • 核心研究问题 (RQs): 如何构建一个统一的框架来解决BioNER中的几个核心难题:

    1. 如何同时、准确地识别扁平实体和结构更复杂的嵌套实体

    2. 如何解决因术语专业性和模糊性导致的实体边界难以确定的问题

    3. 如何克服中、英文在术语、句法上的巨大差异,实现模型的跨语言泛化

  • 核心研究问题是一个新的问题。虽然之前已有模型尝试解决其中部分问题,但论文指出,现有方法(包括基于预训练语言模型的方法)都未能提供一个全面的、统一的解决方案,能够在一个框架内联合支持中英文的扁平与嵌套实体识别

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 文献综述: 作者梳理了BioNER技术的发展历程。从早期的统计模型(HMM、CRF),到深度学习模型(BiLSTM-CRF),再到预训练语言模型(如BioBERT)的出现,性能逐步提升 。近年来,为解决嵌套实体问题,涌现了如W2NER、CNNNER、DiFiNet等基于跨度(span)的方法 。AIONER模型曾尝试统一处理多个BioNER数据集,但仍面临挑战

  • 研究缺口:

    1. 缺乏统一性: 现有方法大多依赖复杂的结构设计,且通常只针对特定语言或数据集,泛化能力有限

    2. LLM应用不完善: 尽管LLMs潜力巨大,但多数现有应用仅生成实体名称和类型,无法提供实体在原文中的精确位置,这在对精度要求极高的生物医学领域是致命缺陷

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标:

    1. 提出一个统一的、生成式的BioNER框架,能够同时处理中英文文本中的扁平与嵌套实体

    2. 设计并比较多种专为LLMs定制的实体标注策略

    3. 引入一个对比性实体选择器,以过滤错误候选实体,提高识别精度

  • 核心假设: 将BioNER重构为一种带有精确边界符号的文本生成任务,并结合多数据集联合训练和专门的错误过滤机制,可以让LLM在复杂的跨语言、多结构BioNER任务上达到甚至超越现有最优方法的性能。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式: 本研究为定量 (Quantitative) 研究,通过构建计算模型并进行严格的性能评测来验证其有效性。

  • 方法论: 整体框架(如图2所示)包含三个核心部分:

    1. 实体标注策略 (Entity Tagging Strategy): 论文将BioNER从传统的序列标注任务转化为文本生成任务 。研究人员设计并比较了三种策略(JSON、HTML、符号化),最终发现符号化标注策略表现最佳 。该策略为每种实体类型单独生成一行文本,并在原文副本中使用[]符号精确标记实体边界,这种设计简化了格式,非常适合LLM的生成过程

    2. 多数据集联合LLM训练 (Multi-dataset Joint LLM Training): 为提升模型的泛化能力,研究在一个统一框架内,同时对四个中英文数据集(CMeEE-V2、GENIA、BioRED、BC5-Chem)进行微调 。训练过程中,通过在提示中明确数据集名称和对应的实体定义,来引导模型处理不同任务,并通过句子级混洗和中英文样本交替来确保均衡学习 。训练采用QLoRA技术,以实现参数高效的微调

    3. 对比性实体选择器 (Contrastive Entity Selector): 错误分析发现,大部分识别错误与实体边界和类型相关 。为解决此问题,研究人员设计了一个分类器,专门用于过滤LLM生成的候选实体 。该选择器使用GLM4模型,在一个由正样本(训练集中的标准实体)和负样本(通过随机偏移边界或更改类型构造的错误实体)构成的数据集上进行微调,以学习判断一个候选实体是否有效

  • 解决方案关键: 其关键在于任务重构多阶段优化。首先将NER巧妙地转化为LLM擅长的生成任务,其次通过多数据集训练提升泛化性,最后通过一个专门的“质检员”(选择器)来修正生成过程中的常见错误。

  • 特点和优势: 与之前的方法相比,该框架具有高度的统一性(一个模型处理多种语言和实体结构)和实用性(能输出精确的实体位置),同时设计简洁(符号化策略),避免了以往嵌套NER模型复杂的结构。

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源: 研究使用了六个公开的BioNER数据集 。其中四个用于联合训练和评估:中文的CMeEE-V2,以及英文的GENIA、BioRED、BC5-Chem

  • 样本: 另外两个数据集,中文的CCKS2019-AS和英文的NCBI-Disease,被用作未见过的测试集,以评估模型的零样本泛化能力 。各数据集的详细统计信息见表I

2.3. 操作化与测量 (Operationalization & Measurement)

  • 操作化: 实体识别任务被操作化为:输入一段生物医学文本和任务指令,模型生成带有边界符号的标注文本

  • 测量: 使用命名实体识别领域的标准指标:精确率 (Precision, P)召回率 (Recall, R)F1分数 (F1 score) 。一个预测实体只有在实体边界(span)和类型(type)都与标准答案完全匹配时才被认为是正确的

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • 符号化标注策略最优: 在CMeEE-V2和GENIA数据集上的对比实验显示,符号化策略的F1分数(分别为76.15%和79.62%)显著高于JSON和HTML策略

  • 微调至关重要: 所有被测试的LLMs(包括Qwen2.5, Llama-3.1, GLM4, DeepSeek-R1)在零样本条件下的表现都较差,但经过微调后性能均有显著提升,其中GLM4-9B-Chat表现最佳

  • 实体选择器效果显著: 所提出的对比性实体选择器(LLM-CLS)在基线模型的基础上,将两个数据集的F1分数分别提升了约1.1% 。它有效减少了所有四种类型的错误,特别是与边界和类型相关的错误减少了超过10%

  • 联合训练提升性能: 与在单个数据集上独立训练相比,多数据集联合训练持续地提升了模型在所有四个基准数据集上的性能

  • 实现SOTA性能: 最终的集成方法在所有四个基准数据集上均取得了最高F1分数,超越了包括DiFiNet、AIONER和UniversalNER在内的所有基线模型

  • 强大的零样本泛化能力: 在两个未见过的测试集上,经过联合训练的模型表现出强大的零样本能力,F1分数(NCBI-Disease上为69.15%)远超GPT-4(52.69%)等通用大模型

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 表VI (Performance Comparison with Other Methods): 这是论文的核心成果展示。数据显示,本研究提出的方法(Ours)在所有四个数据集上均取得最佳F1分数。例如,在处理嵌套实体的GENIA数据集上,其F1分数为81.88%,显著高于此前最优的DiFiNet(79.23%)和同为LLM-based的UniversalNER(77.54%) 。在中文嵌套数据集CMeEE-V2上,也以**77.36%**的F1分数领先

  • 图5 (Summary of error analysis): 此图揭示了模型出错的主要原因。在两个数据集中,与实体边界相关的错误("Span"和"Type&Span"类别)占比极高,例如在CMeEE-V2中合计占到65.2% 。这一发现直接证明了引入一个专门优化边界识别的“实体选择器”的必要性。

  • 表VII (Performance on Unseen Datasets): 该表展示了模型的泛化能力。在完全未见过的NCBI-Disease数据集上,本研究的模型(Ours)取得了**69.15%**的F1分数,而强大的GPT-4仅为52.69% 。这表明,通过多任务联合训练,模型学到了更通用的生物医学实体识别能力,而不仅仅是记住特定数据集的模式。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 研究结果有力地回答了引言中提出的问题。该框架通过一个统一的模型成功地处理了中英文、扁平及嵌套实体。案例分析(表VIII)进一步揭示了其优势:在多数据集联合训练的帮助下,模型能够识别出单一数据集训练时遗漏的子实体(如"B domain"),展现了更强的识别精度

4.2. 理论贡献 (Theoretical Contributions)

  • 提出了一个统一的生成式BioNER框架: 本研究为LLM在专业领域的应用提供了一个成功范例,证明了通过巧妙的任务重构(生成式NER)和多阶段优化,可以构建一个简洁而强大的统一模型

  • 验证了特定标注策略的有效性: 符号化标注策略被证明非常适合LLM的自回归特性,为未来基于LLM的信息提取任务提供了有价值的设计参考

  • 展示了多任务学习的价值: 实验证明,在中英文、平铺/嵌套等异构数据集上进行联合训练,能显著提升模型的泛化能力和鲁棒性

4.3. 实践启示 (Practical Implications)

  • 本研究为自动化处理海量生物医学文本提供了一个高性能、可扩展的工具,能够加速医学知识发现和临床信息系统的构建 。由于代码开源,其他研究者和开发者可以方便地在此基础上进行二次开发和应用

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性: 论文坦诚地指出,该框架在处理需要跨句子片段进行语义整合的长距离依赖实体时表现不佳 。如案例分析中的例子"PHA-activated peripheral mononuclear cells",模型未能将其识别为一个完整的复合名词短语

  • 未来研究:

    1. 整合知识图谱: 计划引入医学知识图谱来增强模型的语义理解能力,帮助其更好地捕捉复杂的实体描述

    2. 扩展语言范围: 计划集成更多语言的BioNER数据集,以进一步提升模型的跨语言能力,支持更广泛的全球生物医学应用

5. 结论 (Conclusion)

本研究提出了一个专为大型语言模型设计的统一生物医学命名实体识别框架。通过将BioNER重构为文本生成任务,并采用创新的符号化标注策略、双语多数据集联合微调以及基于对比学习的实体选择器,该框架成功地实现了对中英文文本中扁平与嵌套实体的高精度、统一化识别。实验结果表明,该方法的性能在多个基准上达到了业界顶尖水平,并展现出卓越的泛化能力。未来的工作将聚焦于融合领域知识图谱和扩展更多语种,以应对更复杂的真实世界临床应用需求

6. 核心参考文献 (Core References)

  1. Lee, J., et al. (2020). "Biobert: a pre-trained biomedical language representation model for biomedical text mining." Bioinformatics.

    • 意义: 标志着预训练语言模型在生物医学文本挖掘领域取得重大突破的里程碑式工作,是许多后续研究(包括本文)的基准。

  2. Li, J., et al. (2022). "Unified named entity recognition as word-word relation classification." (W2NER)

    • 意义: 提出了一种有影响力的嵌套实体识别方法,是本文在性能比较中重要的BERT-based基线模型之一。

  3. Cai, Y., et al. (2024). "Difinet: Boundary-aware semantic differentiation and filtration network for nested named entity recognition."

    • 意义: 一个最新的、性能强大的嵌套实体识别模型,被本文用作最先进的(SOTA)基线进行对比,并成功超越。

  4. Luo, L., et al. (2023). "Aioner: all-in-one scheme-based biomedical named entity recognition using deep learning." Bioinformatics.

    • 意义: 这是一个重要的前期尝试,旨在构建一个统一处理多种生物医学实体类型的模型,为本研究的“统一框架”思想提供了背景。

  5. Zhou, W., et al. (2023). "Universalner: Targeted distillation from large language models for open named entity recognition." arXiv preprint.

    • 意义: 一种代表性的、基于LLM进行指令微调的NER方法,是本文在LLM-based方法中进行比较的一个关键模型。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: