利用 LLM 进行结构化提取,实现真实世界医学知识的总结与搜索

大规模创建和管理知识图谱可以显著加速真实世界数据中疾病的发现、匹配和分析。虽然疾病本体论对于生物数据的注释、整合和分析很有用,但编纂的疾病和程序类别,例如 SNOMED-CT、ICD10、CPT 等,很少能捕捉到患者状况的所有细微差别,或者在罕见疾病的情况下,甚至可能不存在。此外,数据源和出版物中使用了多种疾病定义,每种定义都有自己的结构和层次结构。本体之间的映射、寻找疾病聚类以及构建所选疾病领域的表示都非常耗费资源,通常需要大量人力资本。我们建议利用大型语言模型提取技术来创建和管理患者知识图谱。为了扩大数量和规模,具备通用语言能力的知识图谱允许使用自然语言提取数据,而无需受限于现有本体的精确术语或层次结构。我们开发了一种映射回现有本体(例如 MeSH (Medical Subject Headings)、SNOMED CT (Systematized Nomenclature of Medicine — Clinical Terms)、RxNORM (规范化药物术语)、HPO (人类表型本体) 等)的方法,以将提取的实体与医学界中的已知实体联系起来。
我们拥有全国最大的门诊护理电子健康记录 (EHR) 数据库之一的访问权限。为了证明我们方法的有效性,我们使用超过 3360 万名独特患者的测试集对我们在患者搜索领域的提取进行了基准测试。在这个案例研究中,我们对一种罕见疾病:Dravet 综合征进行了患者搜索。Dravet 综合征在 2020 年 10 月被编纂为 ICD10 可识别的疾病。在以下研究中,我们描述了构建患者特定知识图谱的方法以及随后搜索表现出特定疾病症状的患者的方法。我们使用确诊 ICD10 代码为 Dravet 综合征的患者作为我们的真实情况,利用我们基于 LLM 的实体提取技术,并形式化一种算法方法,以在有根据的本体中描述患者的特征,以帮助将患者映射到特定疾病。最后,我们展示了一种关于 Beta-propeller 蛋白相关神经变性 (BPAN) 的真实世界发现方法的结果,该方法识别了患有罕见疾病的患者,而目前尚无标准答案。

1. 论文的研究目标和相关研究

研究目标:

本论文的主要研究目标是利用大型语言模型 (LLMs) 从真实世界的医疗数据中进行结构化信息提取,以支持疾病的总结和搜索。具体来说,研究聚焦于构建患者知识图谱,并利用 LLMs 从非结构化的临床文本中提取与患者表型相关的实体,并映射到标准化的医学本体,从而实现对患者的自动表型分析和罕见疾病的发现。

实际问题:

论文旨在解决以下几个实际问题:

  • 知识图谱的构建和维护成本高昂: 传统的知识图谱构建严重依赖人工,耗时耗力,且难以跟上医学文献快速更新的步伐。

  • 医学术语复杂且不统一: 不同的数据源和出版物中使用的疾病定义和术语存在差异,难以进行整合和分析。

  • 罕见疾病的识别和诊断困难: 许多罕见疾病缺乏标准的 ICD 编码,或者被归类于更通用的编码下,导致难以识别和诊断。

是否是一个新问题:

利用 LLMs 进行医疗知识图谱的构建和患者表型分析是一个相对较新的问题。虽然知识图谱在生物医学领域已经有应用,但是如何利用 LLMs 的自然语言处理能力实现自动化、大规模的知识提取和应用仍然是一个正在探索的课题。

科学假设:

论文的核心假设是:利用 LLMs 可以从非结构化的临床文本中有效地提取患者表型相关的实体,并将其映射到标准化的医学本体 (如 HPO),从而构建患者知识图谱,支持对患者的自动表型分析,并有助于罕见疾病的发现。

相关研究:

论文回顾了以下几个方面的相关研究:

  • 医学知识图谱: 介绍了医学领域知识图谱的重要性,以及一些重要的基础资源,如 UMLS、Gene Ontology、DisGeNET 和 DrugBank。

  • 生物医学知识发现的进展: 回顾了生物医学知识提取的三个发展阶段:规则和字典匹配、Transformer 架构的引入、LLMs 的兴起。

  • LLMs 从非结构化数据中进行自动化实体提取: 介绍了利用 LLMs 进行自动化知识图谱构建和文本处理的相关研究,并指出了 LLMs 存在幻觉的问题。

  • 利用已知本体丰富知识: 介绍了医学本体的重要性,以及一些常用的医学本体,如 CPT、ICD-10、SNOMED-CT、HPO 和 RxNORM。

  • 真实世界数据集背景: 介绍了论文使用的真实世界数据集,该数据集来自 RespondHealth (RH) 和 Harris Computer 的合作,包含了 3360 万患者的数据,包括 ICD-10 诊断、实验室检查值、操作记录和非结构化的临床记录。

领域内值得关注的研究员:

  • Russ Altman (斯坦福大学): 在生物医学信息学领域做出了许多开创性的工作,包括药物不良反应预测、药物相互作用预测等。

  • Nigam Shah (斯坦福大学): 专注于临床数据的机器学习应用,包括患者表型分析、疾病风险预测等。

  • Zhiyong Lu (NCBI): 在生物医学文本挖掘领域有深入研究,开发了许多生物医学文本挖掘工具和资源,如 PubTator。

  • Fei Wang (康奈尔大学): 专注于医疗健康领域的机器学习和数据挖掘,包括电子病历数据分析、临床决策支持等。

2. 论文提出的新思路、方法或模型

新思路:

论文提出了一种新的利用 LLMs 从真实世界医疗数据中进行结构化信息提取和患者表型分析的思路。该思路的核心是利用 LLMs 的自然语言处理能力,从非结构化的临床文本中提取与患者表型相关的实体,并将其映射到标准化的医学本体 (如 HPO),从而构建患者知识图谱,支持对患者的自动表型分析和罕见疾病的发现。

新方法/模型:

论文提出的方法主要包括以下几个步骤:

  1. 构建患者知识图谱: 将 EHR 数据结构化为知识图谱,其中临床实体 (患者、症状、诊断、治疗) 作为节点,它们之间的关系作为边。

  2. 患者队列识别: 使用 Dravet Syndrome 特定的 ICD-10 代码 (G40.83、G40.833、G40.834) 识别出患有该疾病的患者队列。

  3. HPO 术语提取: 利用 LLMs 从非结构化的临床文本中提取与患者表型相关的实体,并将其映射到 HPO 术语。

    • 提供上下文: 将专家整理的 Dravet Syndrome 相关信息作为上下文提供给 LLMs。

    • 设计 Prompt: 设计合适的 Prompt,指导 LLMs 提取 HPO 术语,并以 JSON 格式输出。

    • Gleaning 技术: 利用 Gleaning 技术,通过多轮迭代提取,提高 HPO 术语提取的召回率。

  4. 患者表型分析: 根据提取的 HPO 术语,对患者进行表型分析,例如统计每个 HPO 术语的出现频率。

  5. 罕见疾病发现: 利用构建的患者知识图谱和 HPO 术语提取方法,对未确诊的罕见疾病 (如 BPAN) 患者进行识别和分析。

关键:

该方法的关键在于:

  • 利用 LLMs 从非结构化的临床文本中提取患者表型相关的实体。

  • 将提取的实体映射到标准化的医学本体 (如 HPO)。

  • 利用 Gleaning 技术提高 HPO 术语提取的召回率。

优势:

与之前的方法相比,该方法的主要优势在于:

  • 自动化程度高: 利用 LLMs 实现了自动化、大规模的知识提取,减少了对人工的依赖。

  • 可扩展性强: 可以应用于不同的疾病和数据集。

  • 灵活性高: 可以根据不同的任务和需求,设计不同的 Prompt 和输出格式。

  • 能够处理非结构化数据: 可以从非结构化的临床文本中提取信息,弥补了结构化数据的不足。

3. 论文的实验验证

实验设计:

论文进行了三个实验来验证方法的有效性:

  • 实验 1:实体提取和映射到 MeSH: 使用 BioCreative V Chemical Disease Relation (BC5CDR) 数据集,评估了不同方法 (包括 fine-tuned BERT models, spaCy NER model, LLMs with zero-shot, static few-shot, and dynamic RAG-based few-shot) 在疾病和化学实体识别任务上的性能。

  • 实验 2:多标签表型分类: 使用 MIMIC-III 数据集中的患者 EHR 病例的表型注释数据集,评估了不同方法 (DeBERTa-v3-large, LLMs with zero-shot, static few-shot, and dynamic RAG-based few-shot) 在多标签多类别表型分类任务上的性能。

  • 实验 3:从临床记录中提取和映射 HPO 术语: 使用 BiolarkGSC+ 数据集,评估了不同方法 (包括 rule-based methods, deep learning BERT-based implementations, and LLM based methods) 在 HPO 术语提取和映射任务上的性能。并采用了 Gleaning 技术来提高召回率。

实验数据和结果:

  • 实验 1 (Table I):

    • 数据集: BC5CDR 数据集

    • 最佳方法: 微调后的 BERT 模型 (BioBERT) 取得了最佳性能。

    • LLMs 表现: LLMs (Llama3.1-Nemo-70B, Qwen2.5-72B, GPT-40) 的性能接近于微调后的 BERT 模型,并且使用动态 few-shot prompting 可以进一步提高性能。

  • 实验 2 (Table II):

    • 数据集: MIMIC-III 数据集中的表型注释数据集

    • 最佳方法: 使用动态 RAG-based few-shot 的 LLMs (Llama3.1-Nemo-70B) 取得了最佳性能。

    • LLMs 表现: LLMs 显著优于 DeBERTa-v3-large 模型,表明 LLMs 在理解医学记录的上下文方面具有更强的能力。

  • 实验 3 (Table III):

    • 数据集: BiolarkGSC+ 数据集

    • 最佳方法: 微调后的 Llama3.1-Nemo-70B 模型取得了最佳性能。

    • Gleaning 技术: Gleaning 技术显著提高了 HPO 术语提取的召回率。

关键数据:

  • 实验 1: BioBERT 在疾病实体识别任务上的 F1 得分为 0.791,在化学实体识别任务上的 F1 得分为 0.818。使用动态 few-shot prompting 的 Llama3.1-Nemo-70B 在疾病实体识别任务上的 F1 得分为 0.662,在化学实体识别任务上的 F1 得分为 0.755。

  • 实验 2: 使用动态 RAG-based few-shot 的 Llama3.1-Nemo-70B 在多标签表型分类任务上的 Micro F1 得分为 0.732,Micro 准确率为 0.919。

  • 实验 3: 微调后的 Llama3.1-Nemo-70B 模型在 HPO 术语提取和映射任务上的 F1 得分为 0.678,使用 Gleaning 技术后提高到 0.720。

支持科学假设?

实验结果有力地支持了论文的科学假设。实验表明,LLMs 可以有效地从非结构化的临床文本中提取患者表型相关的实体,并将其映射到标准化的医学本体 (如 HPO),从而构建患者知识图谱,支持对患者的自动表型分析。

4. 论文的贡献和影响

贡献:

  • 提出了一种新的利用 LLMs 从真实世界医疗数据中进行结构化信息提取和患者表型分析的方法。

  • 通过实验验证了该方法的有效性,并展示了其在 Dravet Syndrome 和 BPAN 两种罕见疾病上的应用。

  • 利用 Gleaning 技术提高了 HPO 术语提取的召回率。

  • 为罕见疾病的发现和诊断提供了一种新的工具和思路。

影响:

  • 推动精准医疗的发展: 通过对患者进行更精细的表型分析,可以更好地理解疾病的异质性,从而实现更精准的诊断和治疗。

  • 加速罕见疾病的研究: 可以帮助研究人员更快地识别和分析罕见疾病患者,从而加速罕见疾病的研究和药物开发。

  • 提高医疗数据的利用率: 可以将大量的非结构化医疗数据转化为结构化的知识,提高医疗数据的利用率。

工程师关注点:

  • Prompt 工程: 如何设计有效的 Prompt,指导 LLMs 完成特定的任务,是该方法的关键。

  • 模型的选择和微调: 如何选择合适的 LLMs,并根据具体的任务进行微调,以提高性能。

  • Gleaning 技术的优化: 如何优化 Gleaning 技术,进一步提高信息提取的准确率和召回率。

  • 知识图谱的构建和维护: 如何构建和维护高质量的知识图谱,并将其与 LLMs 有效地结合起来。

5. 未来研究方向

  • 更广泛的疾病和数据集: 将该方法应用于更多的疾病和数据集,验证其通用性和可扩展性。

  • 更复杂的任务: 探索利用 LLMs 完成更复杂的任务,例如疾病风险预测、治疗方案推荐等。

  • 与其他技术的结合: 将 LLMs 与其他技术 (例如图神经网络) 结合起来,进一步提高性能。

  • 临床应用: 将该方法应用于临床实践,例如开发辅助诊断工具、个性化治疗方案等。

新技术和投资机会:

  • 基于 LLMs 的医疗知识提取工具: 开发基于 LLMs 的工具,帮助医生和研究人员从非结构化的临床文本中提取信息。

  • 罕见疾病诊断平台: 构建基于 LLMs 和知识图谱的罕见疾病诊断平台,帮助医生更快地识别和诊断罕见疾病患者。

  • 个性化医疗解决方案: 开发基于 LLMs 的个性化医疗解决方案,为患者提供更精准的诊断和治疗建议。

6. 论文的不足和缺失

  • 对 LLMs 的依赖性: 该方法严重依赖 LLMs 的性能,而 LLMs 可能会受到数据偏见和幻觉等问题的影响。

  • 缺乏对模型可解释性的探讨: 论文没有对模型的可解释性进行深入探讨,例如 LLMs 是如何做出决策的,以及如何解释模型的输出结果。

  • 伦理问题的考虑不足: 论文没有充分讨论该方法在实际应用中可能存在的伦理问题,例如数据隐私、算法偏见等。

  • 实验数据集的局限性: 论文主要使用了公开的 benchmark 数据集进行实验,虽然也展示了在真实世界数据集上的应用,但还需要在更大规模、更多样化的数据集上进行验证。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: