1. 论文的研究目标、问题与假设
研究目标与实际问题
We introduce the world's first clinical terminology for the Chinese healthcare community, namely MedCT…
缺乏针对中文的全面、实用的临床术语体系: 目前国际上广泛使用的 SNOMED CT 这样的临床术语体系,虽然非常全面,但对中文等人口众多的语言覆盖不足。这阻碍了中文医疗数据的标准化和互操作性。 大型语言模型 (LLMs) 在医疗领域的幻觉问题: LLMs 虽然在语义理解、生成和交互方面表现出色,但在医疗等安全攸关的领域,容易产生“幻觉”,即生成不真实或编造的信息。这严重限制了 LLMs 在临床应用的可靠性。
Moreover, the MedCT knowledge graph provides a principled mechanism to minimize the hallucination problem of large language models (LLMs)...
是否是新问题与科学假设
相关研究、分类及领域内值得关注的研究员
临床术语体系构建: 包括 SNOMED CT、LOINC、ICD 等传统临床术语体系的构建方法和挑战。这些方法通常是手动、耗时且容易出错的。 自然语言处理 (NLP) 在医疗领域的应用: 利用传统的 NLP 技术进行医学文本分析、实体识别和链接等任务。 大型语言模型 (LLMs) 在医疗领域的应用: 探索 LLMs 在电子病历分析、辅助诊断、药物研发等方面的潜力,以及如何解决 LLMs 的幻觉问题。 知识图谱 (Knowledge Graph) 在医疗领域的应用: 利用知识图谱来增强医疗信息的结构化和推理能力。
SNOMED CT Entity Linking challenge [23] 和 SNOBERT [27]: 这是关于如何将医学文本中的实体链接到 SNOMED CT 概念的挑战和最佳解决方案,MedCT 的实体链接模型 MedLink 的开发受到了其启发。 BiomedBERT [18] 和 SciBERT [4]: 这些是专门在生物医学文献上预训练的 BERT 模型,用于提升医学文本的语义理解能力。MedCT 团队也开发了自己的预训练模型 MedBERT。 SapBERT [31, 32]: 用于生物医学术语的嵌入表示,MedLink 模型使用了 SapBERT 来进行实体链接。
叶琛 (Ye Chen), 黄冬冬 (Dongdong Huang), 徐昊昀 (Haoyun Xu), 傅聪 (Cong Fu), 盛林 (Lin Sheng): 这些是来自 Tiger Research 的研究人员,专注于 LLM 和医疗领域的交叉研究。 周庆利 (Qingli Zhou), 沈玉强 (Yuqiang Shen), 王凯 (Kai Wang): 这些是来自浙江大学医学院附属第四医院的医生和信息中心人员,提供了临床领域的专业知识和数据支持。
2. 论文提出的新思路、方法和模型
新思路、方法和模型
MedCT 临床术语图谱: 这是论文的核心贡献,是世界上第一个面向中文医疗社区的、规模可与 SNOMED CT 相媲美的开放临床术语体系。 MedBERT 临床预训练模型: 这是一个基于 Transformer 架构,专门在大量医学文献和临床数据上从头预训练的语言模型,用于提升医学文本的语义理解能力。 MedLink 实体链接模型: 这是一个微调后的模型,用于将医学文本中识别出的实体链接到 MedCT 图谱中的对应概念。
解决方案之关键
基于 LLM 的上下文翻译 (Contextualized Translation): 不再像传统方法那样对 SNOMED CT 的概念进行简单的机器翻译,而是利用 LLM 的生成能力,结合概念的描述、同义词、层级关系等上下文信息,进行更准确、更符合中文语境的翻译。 We first applied LLM to contextualize and translate the SNOMED concepts into Chinese, thus forming our initial MedCT terminology. 真值标注与文化本地化 (Truth Grounding and Cultural Localization): 通过与三甲医院的医生合作,对真实世界的中文电子病历进行标注,并将标注结果与 MedCT 概念进行链接。这个过程不仅验证了 MedCT 的正确性,也根据中国的医疗实践对 MedCT 进行了修正和本地化。 We then collaborated with a tertiary care hospital for truth-grounding the terminology, through annotating real-world EHRs with MedCT while revising the terminology for correction and localization. 迭代优化 (Iterative Reinforcement): 在 MedCT 系统实际部署后,通过医生对标注错误的病例进行修正,并将修正后的数据反馈给模型进行持续微调,从而不断提高 MedCT 的质量和模型的性能。 As we deployed our MedCT system in the field… We took a reinforcement learning approach to iteratively optimize the terminology, for both coverage and precision. 知识增强的 LLM 应用 (Knowledge-Augmented LLM Applications): 将 MedCT 作为知识来源,用于指导 LLM 生成更准确、更可靠的医疗文本,例如自动生成出院小结。这有效缓解了 LLM 的幻觉问题。 In order to address the hallucination problem intrinsic to LLMs, we guide the LLM generation with a knowledge graph as source of truth.
与之前方法相比的特点和优势
快速且低成本: 利用 LLM 的生成能力,MedCT 团队在三个月内以约 10 万美元的成本构建了一个可用的临床术语体系,而 SNOMED CT 耗时二十多年,耗资数亿美元。 With a LLM-based holistic approach, we were able to develop a working version of clinical terminology within three months at a relatively low cost of computing and human labor, i.e., about 100K dollar. 更高的质量和本地化程度: 通过上下文翻译和真值标注,MedCT 更准确地捕捉了中文医学术语的含义,并更好地适应了中国的医疗实践。 与 LLM 的天然集成: MedCT 的设计考虑了与 LLM 的集成,可以作为 LLM 的知识来源,有效降低 LLM 的幻觉问题。 开源开放: MedCT 及其相关模型和算法是开源的,这有利于其在中文医疗社区的推广和应用。
3. 论文的实验验证
实验设计
语义匹配 (Semantic Matching): 验证 MedBERT 模型在理解医学文本语义方面的能力。实验采用了 填空任务 (fill-mask task),比较 MedBERT 与其他预训练模型在预测被遮盖的医学术语方面的准确率。 We compared the prediction accuracy of the fill-mask task between our MedBERT and other SOTA biomedical and general-domain models... 实体链接 (Entity Linking): 验证 MedLink 模型将医学文本中的实体链接到 MedCT 概念的准确性。实验采用了两个数据集:英文的 MIMIC-IV 数据集(用于与 SNOMED CT 挑战赛比较)和中文的 MedCT-clinical-notes 数据集。评估指标是 概念级平均交并比 (concept-averaged Intersection-over-Union, IoU)。 We implemented a two-stage approach to recognizing clinical entities from free-text notes and linking the entities to the built MedCT concepts... We measure the performance of trained models with character-level concept-averaged intersection-over-union (IoU)... 真实世界临床应用: 电子病历 (EHR) 自动生成: 评估将 MedCT 用于指导 LLM 生成出院小结的效果。通过人工评估生成的摘要与医生撰写的摘要的相似度,并采用 Likert 量表进行人工评分。 健康记录的回顾性检索: 评估将 MedCT 用于增强 EHR 检索效果。构建了包含 20 个临床查询的测试集,并比较了基于关键词的检索方法 (Sparse, Dense) 和 MedCT 增强的检索方法在检索相关病例方面的准确率、召回率和 F1 值。
We further deployed the MedCT terminology to a representative spectrum of real world clinical and research applications...
实验数据和结果
MedBERT 的语义匹配能力: MedBERT 在填空任务中取得了显著优于其他 SOTA 模型的成绩。例如,MedBERT 的准确率达到了 0.8344,远高于 BiomedBERT 和 SciBERT 等模型。这表明 MedBERT 能够更好地理解医学文本的语义。 MedLink 的实体链接能力: MedLink 模型在英文和中文实体链接任务中都取得了 SOTA 的性能。在中文 MedCT 数据集上,MedLink 的 IoU 值达到了 0.3012,显著高于其他基线模型。这表明 MedLink 能够准确地将中文医学文本中的实体链接到 MedCT 的概念。 EHR 自动生成: 人工评估结果显示,MedCT 增强的 LLM 生成的摘要在“临床深度”和“相关性”方面显著优于普通 LLM 和医生撰写的摘要。 基于余弦相似度的自动评估也显示,MedCT 增强的方法取得了最佳效果。 Overall, our MedCT-guided LLM approach achieves highest human ratings, winning five out of six review dimensions. Notably, the gains from the perspectives of “clinical depth" and "relevance" are particularly substantial... 健康记录的回顾性检索: 实验结果表明,MedCT 增强的检索方法显著优于传统的基于关键词的检索方法。 MedCT 将检索召回率提高了 15%。
实验结果对科学假设的支持
MedCT 能够显著降低 LLMs 在中文医疗场景应用中的幻觉,同时提升其准确性和安全性。 在 EHR 自动生成任务中,MedCT 增强的 LLM 能够生成更准确、更符合临床意义的摘要。 基于 LLM 的方法可以更快速、更低成本地构建高质量的临床术语体系。 MedCT 的构建时间和成本远低于传统的 SNOMED CT。
4. 论文的贡献与影响
论文的核心贡献
MedCT:世界上第一个面向中文医疗社区的开放临床术语体系。 其规模可与 SNOMED CT 相媲美,包含了 22.3 万个医学概念。 (1) MedCT: the world's first open Chinese clinical terminology at the scale comparable to SNOMED CT. 一套支持 MedCT 的模型和算法,包括 MedBERT 预训练模型和 MedLink 实体链接模型。 这些模型为 MedCT 的应用提供了技术基础。 (2) A suite of models and algorithms for readily adoption of the above terminology, namely, MedBERT, a pretrained foundation model, and MedLink, a fine-tuned entity linking model. 一套快速、低成本构建临床术语体系的整体方法, 为其他语言的临床术语体系构建提供了借鉴。 (3) A holistic approach with implementation details for rapid and cost-efficient development of clinical terminology for other unattended languages. 一系列基于 MedCT 的真实世界临床应用案例, 展示了 MedCT 的价值和在医疗领域应用 LLM 的参考框架。 (4) A wide and representative spectrum of real-world clinical applications utilizing the MedCT system, to demonstrate its value propositions and provide a reference framework of truth-augmented LLM applications in the healthcare domain. 关于 LLM 在真实世界临床应用现状的发现和观察, 例如不同规模的 LLM、通用模型和领域专用模型等。 (5) Finding and observations from the field with regards to the status quo of applying LLMs in real-world clinical setting, e.g., large or small models, LLM or classical NLP techniques, general or domain-specialized models.
对业界的影响与潜在应用场景
推动中文医疗数据的标准化和互操作性: MedCT 的出现将有助于统一中文医疗数据的表示方式,提高不同医疗机构之间的数据共享和利用效率,为基于数据的医疗研究、精准医疗和管理提供支持。 提升 LLM 在医疗领域的应用可靠性: MedCT 作为知识来源,可以显著降低 LLM 在医疗场景中的幻觉问题,使其在辅助诊断、药物研发、患者教育等方面的应用更加安全可靠。 加速医疗人工智能应用的落地: MedCT 及其相关模型和算法的开源开放,降低了开发基于中文医学知识的人工智能应用的门槛,将促进更多创新应用的涌现。
智能电子病历系统: 利用 MedCT 进行病历数据的自动编码、信息抽取和结构化,提高病历录入效率和数据质量。 临床决策支持系统: 将 MedCT 与 LLM 结合,为医生提供更准确、更全面的辅助诊断和治疗建议。 医学知识图谱构建与应用: MedCT 本身就是一个高质量的医学知识图谱,可以用于构建更复杂的知识图谱,应用于药物研发、疾病预测等领域。 患者智能助手: 利用 MedCT 和 LLM 开发智能患者助手,提供疾病咨询、健康管理等服务。 医学教育和培训: MedCT 可以作为医学知识的权威来源,用于医学教育和培训。 医药研发: MedCT 可以帮助分析临床数据,发现新的药物靶点和治疗方法。
作为工程师的关注点
MedCT 的技术架构和实现细节: 深入了解 MedCT 的数据结构、模型训练方法和算法实现,以便更好地利用和扩展 MedCT。 MedBERT 和 MedLink 的模型性能和适用场景: 掌握如何根据具体的应用场景选择合适的模型,并进行必要的微调和优化。 MedCT 与现有医疗信息系统的集成: 研究如何将 MedCT 集成到现有的电子病历系统、临床决策支持系统等,实现数据的互联互通。 基于 MedCT 的新应用开发: 探索基于 MedCT 的各种创新应用,例如智能问诊、个性化健康管理等,并开发相应的技术解决方案。 MedCT 的持续维护和更新: 了解 MedCT 的更新机制,并参与到 MedCT 的维护和完善工作中。
5. 未来研究方向与挑战
扩展 MedCT 的语言覆盖范围: 目前 MedCT 主要针对中文,未来可以扩展到其他语言,例如葡萄牙语、阿拉伯语等。 提升 MedCT 的覆盖度和精细度: 虽然 MedCT 的规模已经很大,但仍然可以进一步扩展其覆盖的医学概念范围,并提高概念的精细程度。 更深入地研究 LLM 与知识图谱的融合方法: 探索更有效的方法将 MedCT 融入到 LLM 的训练和推理过程中,以进一步提升 LLM 在医疗领域的性能和可靠性。 开发更强大的医学领域预训练模型: 虽然 MedBERT 已经取得了很好的效果,但仍然可以开发更强大的医学领域预训练模型,以更好地理解和生成医学文本。 解决伦理、安全和隐私问题: 在医疗领域应用 LLM 和知识图谱,需要高度关注伦理、安全和隐私问题,例如数据安全、患者隐私保护、算法偏见等。
更智能的医学知识管理平台: 将 MedCT 与其他医学知识资源整合,构建更智能的医学知识管理平台,为医生、研究人员和患者提供全面的知识服务。 基于知识增强的医疗人工智能应用: 开发更多基于 MedCT 知识增强的医疗人工智能应用,例如更精准的辅助诊断系统、更个性化的治疗方案推荐系统等。 医疗数据治理和标准化解决方案: MedCT 的推广应用将促进医疗数据的标准化,为医疗数据治理领域带来新的投资机会。
6. 论文的不足与缺失
数据集的地域限制: MedCT 的真值标注数据主要来自中国浙江的一家三甲医院,可能存在一定的地域性和文化偏倚,其在其他地区或国家的适用性可能需要进一步验证。 LLM 的选择和评估: 论文主要使用了 Tigerbot-3 LLM 进行实验,未来可以尝试使用更多不同的 LLM 进行验证,并对不同 LLM 的性能差异进行更深入的分析。 人工评估的主观性: EHR 自动生成任务的评估主要依赖人工评分,可能存在一定的主观性,未来可以探索更客观的自动评估指标。 缺乏与其他中文医学知识库的对比: 论文主要与英文的 SNOMED CT 进行对比,未来可以与国内已有的中文医学知识库进行对比,以更全面地评估 MedCT 的优势。 未充分探讨 MedCT 的可维护性和更新机制: 论文提到了迭代优化,但没有详细说明 MedCT 的长期维护和更新机制,例如如何及时更新医学新知识、如何处理概念之间的关系变化等。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment