MedCT:面向医疗保健领域生成式人工智能应用的临床术语图

我们为中国医疗保健界推出全球首个临床术语 MedCT,以及临床基础模型 MedBERT 和实体链接模型 MedLink。MedCT 系统能够对中文临床数据进行标准化和可编程的表示,从而持续推动人口众多的中国社区的新药开发、治疗路径和更好的患者预后。此外,MedCT 知识图谱提供了一种原则性的机制,可以最大限度地减少大型语言模型 (LLM) 的幻觉问题,从而在基于 LLM 的临床应用中实现高水平的准确性和安全性。通过利用 LLM 的生成性和表达性等新兴能力,我们能够在三个月内快速构建一个生产质量的术语系统并部署到现实世界的临床领域,而像 SNOMED CT 这样的经典术语系统已经经历了二十多年的发展。我们的实验表明,MedCT 系统在语义匹配和实体链接任务中实现了最先进的 (SOTA) 性能,不仅适用于中文,也适用于英文。我们还进行了一项纵向现场实验,将 MedCT 和 LLM 应用于一系列具有代表性的临床任务中,包括电子健康记录 (EHR) 自动生成和用于诊断决策的医学文档搜索。我们的研究表明,MedCT 对临床工作流程和患者预后具有多重价值,尤其是在新型临床 LLM 应用中。我们以足够的工程细节介绍了我们的方法,以便为其他非英语社会实施临床术语应该是容易复制的。我们希望激发基于 LLM 的医疗保健数字化的进一步研究,并在更大程度上促进人类福祉,我们公开了我们的术语、模型和算法,以及用于开发的真实世界临床数据集 。

1. 论文的研究目标、问题与假设

研究目标与实际问题

这篇论文的核心研究目标是构建世界上第一个面向中文医疗社区的临床术语体系,名为 MedCT (Medical Concept Terminology)

We introduce the world's first clinical terminology for the Chinese healthcare community, namely MedCT…

论文旨在解决以下实际问题:

  • 缺乏针对中文的全面、实用的临床术语体系: 目前国际上广泛使用的 SNOMED CT 这样的临床术语体系,虽然非常全面,但对中文等人口众多的语言覆盖不足。这阻碍了中文医疗数据的标准化和互操作性。

  • 大型语言模型 (LLMs) 在医疗领域的幻觉问题: LLMs 虽然在语义理解、生成和交互方面表现出色,但在医疗等安全攸关的领域,容易产生“幻觉”,即生成不真实或编造的信息。这严重限制了 LLMs 在临床应用的可靠性。

Moreover, the MedCT knowledge graph provides a principled mechanism to minimize the hallucination problem of large language models (LLMs)...

是否是新问题与科学假设

这在很大程度上是一个新问题。 虽然 SNOMED CT 等通用的临床术语体系已经存在多年,但专门为中文医疗社区构建并与最新的 LLM 技术相结合的术语体系尚属首次。

论文要验证的科学假设是:MedCT 临床术语图谱能够显著降低 LLMs 在中文医疗场景应用中的幻觉,同时提升其准确性和安全性。 此外,论文还隐含地验证了基于 LLM 的方法可以更快速、更低成本地构建高质量的临床术语体系。

相关研究、分类及领域内值得关注的研究员

相关研究可以归类为以下几个方面:

  • 临床术语体系构建: 包括 SNOMED CT、LOINC、ICD 等传统临床术语体系的构建方法和挑战。这些方法通常是手动、耗时且容易出错的。

  • 自然语言处理 (NLP) 在医疗领域的应用: 利用传统的 NLP 技术进行医学文本分析、实体识别和链接等任务。

  • 大型语言模型 (LLMs) 在医疗领域的应用: 探索 LLMs 在电子病历分析、辅助诊断、药物研发等方面的潜力,以及如何解决 LLMs 的幻觉问题。

  • 知识图谱 (Knowledge Graph) 在医疗领域的应用: 利用知识图谱来增强医疗信息的结构化和推理能力。

论文中提到的一些相关研究:

  • SNOMED CT Entity Linking challenge [23] 和 SNOBERT [27]: 这是关于如何将医学文本中的实体链接到 SNOMED CT 概念的挑战和最佳解决方案,MedCT 的实体链接模型 MedLink 的开发受到了其启发。

  • BiomedBERT [18] 和 SciBERT [4]: 这些是专门在生物医学文献上预训练的 BERT 模型,用于提升医学文本的语义理解能力。MedCT 团队也开发了自己的预训练模型 MedBERT。

  • SapBERT [31, 32]: 用于生物医学术语的嵌入表示,MedLink 模型使用了 SapBERT 来进行实体链接。

值得关注的研究员(基于论文作者):

  • 叶琛 (Ye Chen), 黄冬冬 (Dongdong Huang), 徐昊昀 (Haoyun Xu), 傅聪 (Cong Fu), 盛林 (Lin Sheng): 这些是来自 Tiger Research 的研究人员,专注于 LLM 和医疗领域的交叉研究。

  • 周庆利 (Qingli Zhou), 沈玉强 (Yuqiang Shen), 王凯 (Kai Wang): 这些是来自浙江大学医学院附属第四医院的医生和信息中心人员,提供了临床领域的专业知识和数据支持。

2. 论文提出的新思路、方法和模型

新思路、方法和模型

论文的核心创新在于结合 LLM 的生成能力和知识图谱的结构化优势,提出了一种全新的、快速构建高质量临床术语体系的方法。 具体来说,论文提出了一个包含三个核心组件的系统:

  1. MedCT 临床术语图谱: 这是论文的核心贡献,是世界上第一个面向中文医疗社区的、规模可与 SNOMED CT 相媲美的开放临床术语体系。

  2. MedBERT 临床预训练模型: 这是一个基于 Transformer 架构,专门在大量医学文献和临床数据上从头预训练的语言模型,用于提升医学文本的语义理解能力。

  3. MedLink 实体链接模型: 这是一个微调后的模型,用于将医学文本中识别出的实体链接到 MedCT 图谱中的对应概念。

解决方案之关键

MedCT 解决方案的关键在于以下几个方面:

  • 基于 LLM 的上下文翻译 (Contextualized Translation): 不再像传统方法那样对 SNOMED CT 的概念进行简单的机器翻译,而是利用 LLM 的生成能力,结合概念的描述、同义词、层级关系等上下文信息,进行更准确、更符合中文语境的翻译。

    We first applied LLM to contextualize and translate the SNOMED concepts into Chinese, thus forming our initial MedCT terminology.

  • 真值标注与文化本地化 (Truth Grounding and Cultural Localization): 通过与三甲医院的医生合作,对真实世界的中文电子病历进行标注,并将标注结果与 MedCT 概念进行链接。这个过程不仅验证了 MedCT 的正确性,也根据中国的医疗实践对 MedCT 进行了修正和本地化。

    We then collaborated with a tertiary care hospital for truth-grounding the terminology, through annotating real-world EHRs with MedCT while revising the terminology for correction and localization.

  • 迭代优化 (Iterative Reinforcement): 在 MedCT 系统实际部署后,通过医生对标注错误的病例进行修正,并将修正后的数据反馈给模型进行持续微调,从而不断提高 MedCT 的质量和模型的性能。

    As we deployed our MedCT system in the field… We took a reinforcement learning approach to iteratively optimize the terminology, for both coverage and precision.

  • 知识增强的 LLM 应用 (Knowledge-Augmented LLM Applications): 将 MedCT 作为知识来源,用于指导 LLM 生成更准确、更可靠的医疗文本,例如自动生成出院小结。这有效缓解了 LLM 的幻觉问题。

    In order to address the hallucination problem intrinsic to LLMs, we guide the LLM generation with a knowledge graph as source of truth.

与之前方法相比的特点和优势

与传统的临床术语体系构建方法相比,MedCT 的方法具有以下特点和优势:

  • 快速且低成本: 利用 LLM 的生成能力,MedCT 团队在三个月内以约 10 万美元的成本构建了一个可用的临床术语体系,而 SNOMED CT 耗时二十多年,耗资数亿美元。

    With a LLM-based holistic approach, we were able to develop a working version of clinical terminology within three months at a relatively low cost of computing and human labor, i.e., about 100K dollar.

  • 更高的质量和本地化程度: 通过上下文翻译和真值标注,MedCT 更准确地捕捉了中文医学术语的含义,并更好地适应了中国的医疗实践。

  • 与 LLM 的天然集成: MedCT 的设计考虑了与 LLM 的集成,可以作为 LLM 的知识来源,有效降低 LLM 的幻觉问题。

  • 开源开放: MedCT 及其相关模型和算法是开源的,这有利于其在中文医疗社区的推广和应用。

3. 论文的实验验证

实验设计

论文通过一系列实验来验证 MedCT 系统的有效性,主要包括以下几个方面:

  • 语义匹配 (Semantic Matching): 验证 MedBERT 模型在理解医学文本语义方面的能力。实验采用了 填空任务 (fill-mask task),比较 MedBERT 与其他预训练模型在预测被遮盖的医学术语方面的准确率。

    We compared the prediction accuracy of the fill-mask task between our MedBERT and other SOTA biomedical and general-domain models...

  • 实体链接 (Entity Linking): 验证 MedLink 模型将医学文本中的实体链接到 MedCT 概念的准确性。实验采用了两个数据集:英文的 MIMIC-IV 数据集(用于与 SNOMED CT 挑战赛比较)和中文的 MedCT-clinical-notes 数据集。评估指标是 概念级平均交并比 (concept-averaged Intersection-over-Union, IoU)

    We implemented a two-stage approach to recognizing clinical entities from free-text notes and linking the entities to the built MedCT concepts... We measure the performance of trained models with character-level concept-averaged intersection-over-union (IoU)...

  • 真实世界临床应用:

    • 电子病历 (EHR) 自动生成: 评估将 MedCT 用于指导 LLM 生成出院小结的效果。通过人工评估生成的摘要与医生撰写的摘要的相似度,并采用 Likert 量表进行人工评分。

    • 健康记录的回顾性检索: 评估将 MedCT 用于增强 EHR 检索效果。构建了包含 20 个临床查询的测试集,并比较了基于关键词的检索方法 (Sparse, Dense) 和 MedCT 增强的检索方法在检索相关病例方面的准确率、召回率和 F1 值。

    We further deployed the MedCT terminology to a representative spectrum of real world clinical and research applications...

实验数据和结果

关键实验数据和结果如下:

  • MedBERT 的语义匹配能力: MedBERT 在填空任务中取得了显著优于其他 SOTA 模型的成绩。例如,MedBERT 的准确率达到了 0.8344,远高于 BiomedBERT 和 SciBERT 等模型。这表明 MedBERT 能够更好地理解医学文本的语义。

    TypeModelAccuracy
    BiomedBiomedBERT-base-fulltext [18]0.5633
    BiomedSciBERT [4]0.5819
    BiomedMedBERT0.8344
    GeneralBERT-base-Chinese0.5582
  • MedLink 的实体链接能力: MedLink 模型在英文和中文实体链接任务中都取得了 SOTA 的性能。在中文 MedCT 数据集上,MedLink 的 IoU 值达到了 0.3012,显著高于其他基线模型。这表明 MedLink 能够准确地将中文医学文本中的实体链接到 MedCT 的概念。

    TypeBase modelChinese NEL (IoU on MedCT)
    BiomedBiomedBERT-base-fulltext [18]0.0091
    BiomedSciBERT [4]0.0026
    BiomedMedBERT0.3012
    GeneralBERT-base-Chinese0.1516
  • EHR 自动生成: 人工评估结果显示,MedCT 增强的 LLM 生成的摘要在“临床深度”和“相关性”方面显著优于普通 LLM 和医生撰写的摘要。 基于余弦相似度的自动评估也显示,MedCT 增强的方法取得了最佳效果。

    Overall, our MedCT-guided LLM approach achieves highest human ratings, winning five out of six review dimensions. Notably, the gains from the perspectives of “clinical depth" and "relevance" are particularly substantial...

  • 健康记录的回顾性检索: 实验结果表明,MedCT 增强的检索方法显著优于传统的基于关键词的检索方法。 MedCT 将检索召回率提高了 15%。

    Retrieval methodPrecision¹Recall²F₁-score³
    Sparse0.52940.50150.5151
    MedCT-aug.0.62350.57450.5980

实验结果对科学假设的支持

实验结果有力地支持了论文的科学假设:

  • MedCT 能够显著降低 LLMs 在中文医疗场景应用中的幻觉,同时提升其准确性和安全性。 在 EHR 自动生成任务中,MedCT 增强的 LLM 能够生成更准确、更符合临床意义的摘要。

  • 基于 LLM 的方法可以更快速、更低成本地构建高质量的临床术语体系。 MedCT 的构建时间和成本远低于传统的 SNOMED CT。

4. 论文的贡献与影响

论文的核心贡献

这篇论文的主要贡献可以概括为以下几点:

  1. MedCT:世界上第一个面向中文医疗社区的开放临床术语体系。 其规模可与 SNOMED CT 相媲美,包含了 22.3 万个医学概念。

    (1) MedCT: the world's first open Chinese clinical terminology at the scale comparable to SNOMED CT.

  2. 一套支持 MedCT 的模型和算法,包括 MedBERT 预训练模型和 MedLink 实体链接模型。 这些模型为 MedCT 的应用提供了技术基础。

    (2) A suite of models and algorithms for readily adoption of the above terminology, namely, MedBERT, a pretrained foundation model, and MedLink, a fine-tuned entity linking model.

  3. 一套快速、低成本构建临床术语体系的整体方法, 为其他语言的临床术语体系构建提供了借鉴。

    (3) A holistic approach with implementation details for rapid and cost-efficient development of clinical terminology for other unattended languages.

  4. 一系列基于 MedCT 的真实世界临床应用案例, 展示了 MedCT 的价值和在医疗领域应用 LLM 的参考框架。

    (4) A wide and representative spectrum of real-world clinical applications utilizing the MedCT system, to demonstrate its value propositions and provide a reference framework of truth-augmented LLM applications in the healthcare domain.

  5. 关于 LLM 在真实世界临床应用现状的发现和观察, 例如不同规模的 LLM、通用模型和领域专用模型等。

    (5) Finding and observations from the field with regards to the status quo of applying LLMs in real-world clinical setting, e.g., large or small models, LLM or classical NLP techniques, general or domain-specialized models.

对业界的影响与潜在应用场景

MedCT 的研究成果将对医疗行业和人工智能领域产生深远影响:

  • 推动中文医疗数据的标准化和互操作性: MedCT 的出现将有助于统一中文医疗数据的表示方式,提高不同医疗机构之间的数据共享和利用效率,为基于数据的医疗研究、精准医疗和管理提供支持。

  • 提升 LLM 在医疗领域的应用可靠性: MedCT 作为知识来源,可以显著降低 LLM 在医疗场景中的幻觉问题,使其在辅助诊断、药物研发、患者教育等方面的应用更加安全可靠。

  • 加速医疗人工智能应用的落地: MedCT 及其相关模型和算法的开源开放,降低了开发基于中文医学知识的人工智能应用的门槛,将促进更多创新应用的涌现。

潜在的应用场景和商业机会:

  • 智能电子病历系统: 利用 MedCT 进行病历数据的自动编码、信息抽取和结构化,提高病历录入效率和数据质量。

  • 临床决策支持系统: 将 MedCT 与 LLM 结合,为医生提供更准确、更全面的辅助诊断和治疗建议。

  • 医学知识图谱构建与应用: MedCT 本身就是一个高质量的医学知识图谱,可以用于构建更复杂的知识图谱,应用于药物研发、疾病预测等领域。

  • 患者智能助手: 利用 MedCT 和 LLM 开发智能患者助手,提供疾病咨询、健康管理等服务。

  • 医学教育和培训: MedCT 可以作为医学知识的权威来源,用于医学教育和培训。

  • 医药研发: MedCT 可以帮助分析临床数据,发现新的药物靶点和治疗方法。

作为工程师的关注点

作为工程师,您应该关注以下方面:

  • MedCT 的技术架构和实现细节: 深入了解 MedCT 的数据结构、模型训练方法和算法实现,以便更好地利用和扩展 MedCT。

  • MedBERT 和 MedLink 的模型性能和适用场景: 掌握如何根据具体的应用场景选择合适的模型,并进行必要的微调和优化。

  • MedCT 与现有医疗信息系统的集成: 研究如何将 MedCT 集成到现有的电子病历系统、临床决策支持系统等,实现数据的互联互通。

  • 基于 MedCT 的新应用开发: 探索基于 MedCT 的各种创新应用,例如智能问诊、个性化健康管理等,并开发相应的技术解决方案。

  • MedCT 的持续维护和更新: 了解 MedCT 的更新机制,并参与到 MedCT 的维护和完善工作中。

5. 未来研究方向与挑战

未来在该研究方向上还有许多值得进一步探索的问题和挑战:

  • 扩展 MedCT 的语言覆盖范围: 目前 MedCT 主要针对中文,未来可以扩展到其他语言,例如葡萄牙语、阿拉伯语等。

  • 提升 MedCT 的覆盖度和精细度: 虽然 MedCT 的规模已经很大,但仍然可以进一步扩展其覆盖的医学概念范围,并提高概念的精细程度。

  • 更深入地研究 LLM 与知识图谱的融合方法: 探索更有效的方法将 MedCT 融入到 LLM 的训练和推理过程中,以进一步提升 LLM 在医疗领域的性能和可靠性。

  • 开发更强大的医学领域预训练模型: 虽然 MedBERT 已经取得了很好的效果,但仍然可以开发更强大的医学领域预训练模型,以更好地理解和生成医学文本。

  • 解决伦理、安全和隐私问题: 在医疗领域应用 LLM 和知识图谱,需要高度关注伦理、安全和隐私问题,例如数据安全、患者隐私保护、算法偏见等。

可能催生的新技术和投资机会:

  • 更智能的医学知识管理平台: 将 MedCT 与其他医学知识资源整合,构建更智能的医学知识管理平台,为医生、研究人员和患者提供全面的知识服务。

  • 基于知识增强的医疗人工智能应用: 开发更多基于 MedCT 知识增强的医疗人工智能应用,例如更精准的辅助诊断系统、更个性化的治疗方案推荐系统等。

  • 医疗数据治理和标准化解决方案: MedCT 的推广应用将促进医疗数据的标准化,为医疗数据治理领域带来新的投资机会。

6. 论文的不足与缺失

从 critical thinking 的视角来看,这篇论文也存在一些不足及缺失:

  • 数据集的地域限制: MedCT 的真值标注数据主要来自中国浙江的一家三甲医院,可能存在一定的地域性和文化偏倚,其在其他地区或国家的适用性可能需要进一步验证。

  • LLM 的选择和评估: 论文主要使用了 Tigerbot-3 LLM 进行实验,未来可以尝试使用更多不同的 LLM 进行验证,并对不同 LLM 的性能差异进行更深入的分析。

  • 人工评估的主观性: EHR 自动生成任务的评估主要依赖人工评分,可能存在一定的主观性,未来可以探索更客观的自动评估指标。

  • 缺乏与其他中文医学知识库的对比: 论文主要与英文的 SNOMED CT 进行对比,未来可以与国内已有的中文医学知识库进行对比,以更全面地评估 MedCT 的优势。

  • 未充分探讨 MedCT 的可维护性和更新机制: 论文提到了迭代优化,但没有详细说明 MedCT 的长期维护和更新机制,例如如何及时更新医学新知识、如何处理概念之间的关系变化等。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: