Digital Health Insider: AutoRD：罕见疾病知识图自动构建系统——基于大语言模型和本体论技术的端到端解决方案

目标：我们的目标是创建一个名为AutoRD的端到端系统，该系统自动从临床文本中提取罕见疾病信息。我们已经进行了各种测试来评估AutoRD的性能，并在本文中突出了其优势和局限性。

材料和方法：我们的系统AutoRD是一个软件管道，涉及数据预处理、实体提取、关系提取、实体校准和知识图构建。我们使用大语言模型和来自开源医疗本体论的医疗知识图来实现这一点。我们对实体提取、关系提取和知识图构建的性能进行了定量评估。

结果：AutoRD获得了总体F1分数为47.3%，比基本LLM提高了14.4%。具体来说，AutoRD获得了总体实体提取F1分数为56.1%（罕见疾病：83.5%，疾病：35.8%，症状和体征：46.1%，代词：67.5%），总体关系提取F1分数为38.6%（产生：34.7%，增加风险：12.4%，是：37.4%，是缩写：44.1%，是同义词：16.3%，代词：57.5%）。我们的定性实验也表明，知识图构建的性能是可嘉的。

讨论：AutoRD展示了大语言模型在罕见疾病检测中的潜力。这种改进归因于多种设计，包括本体论增强LLM的集成。

结论：AutoRD是一个自动的端到端系统，用于从文本中提取罕见疾病信息以构建知识图。它使用本体论增强LLM来建立一个可靠的医疗知识库。AutoRD的优越性能通过实验评估得到了验证，展示了大语言模型在医疗保健中的潜力。

一、研究目标与实际意义

研究目标

本论文的研究目标是开发一个名为AutoRD的自动端到端系统，旨在从临床文本中自动提取罕见疾病信息，并基于这些信息构建罕见疾病的知识图谱。

实际意义

罕见疾病由于发病率低，常常缺乏足够的医学知识和治疗手段。AutoRD系统能够自动提取和分析罕见疾病的相关文本信息，为医生提供更为全面的罕见疾病知识，加快诊断过程，并可能促进新治疗方法的发现。此外，构建罕见疾病知识图谱对于促进全球范围内的医疗知识共享具有重要意义。

二、新思路、方法与模型

提出的新思路

AutoRD系统整合了大型语言模型（LLMs）和医学知识图谱，利用本体（ontologies）增强的LLMs提升医学知识库的鲁棒性。通过数据预处理、实体提取、关系提取、实体校准和知识图谱构建等多个步骤，实现罕见疾病信息的自动提取和知识图谱的构建。

方法与模型的特点和优势

特点：

端到端自动化：系统能够自动处理文本数据，无需人工干预。
本体增强：通过整合医学本体，增强了LLMs的医学知识库，提高了信息提取的准确性。
关系提取：不仅提取实体，还分析实体之间的关系，为构建知识图谱提供基础。

优势：

高效性：自动化处理能够大大提高信息提取的效率。
准确性：本体增强的LLMs提高了医学实体和关系提取的准确性。
全面性：知识图谱的构建为罕见疾病知识提供了全面的视图。

三、实验设计与结果

实验设计

实验在RareDis2023数据集上进行，包括数据预处理、实体提取、关系提取和知识图谱构建等多个步骤。通过与BioClinicalBERT模型和基础GPT-4模型的对比，验证了AutoRD系统的性能。

实验数据与结果

关键数据：

AutoRD系统实现了47.3%的整体F1分数，比基础GPT-4模型提高了14.4%。
在实体提取方面，AutoRD系统在“rare_disease”类别上达到了**83.5%**的F1分数。
在关系提取方面，尽管整体性能略低于实体提取，但AutoRD系统仍在多个关系类型上展现了较高的F1分数。

四、业界影响与应用场景

业界影响

AutoRD系统的研究成果展示了LLMs在医疗健康领域的巨大潜力，尤其是在罕见疾病信息提取和知识图谱构建方面。该系统有望为罕见疾病研究、诊断和治疗提供有力支持。

应用场景与商业机会

应用场景：

临床辅助诊断：为医生提供罕见疾病相关信息，辅助诊断过程。
医学研究：为罕见疾病研究提供全面的知识图谱，促进新治疗方法的发现。

商业机会：

医疗信息化解决方案提供商：开发基于AutoRD系统的医疗信息化解决方案，为医疗机构提供罕见疾病信息管理服务。
数据服务提供商：利用AutoRD系统构建和维护罕见疾病知识图谱，为医药研发、临床诊断等领域提供数据支持。

五、未来探索与挑战

未来探索方向

增强LLMs的医疗理解能力：通过持续训练和优化，提升LLMs在医学领域的性能和准确性。
拓展应用领域：将AutoRD系统应用于更多医疗领域，如常见疾病诊断、患者健康管理等。

面临的挑战

数据稀缺性：罕见疾病相关文本数据相对较少，可能限制系统性能的提升。
知识图谱的维护与更新：随着医学知识的不断更新和发展，如何维护和更新罕见疾病知识图谱成为一个挑战。

六、论文不足与需要进一步验证的内容

论文不足

数据集局限性：实验仅在单一数据集上进行，可能无法全面反映系统的性能。
未考虑多种语言支持：当前系统主要针对英文文本进行处理，对于其他语言的支持有待加强。

需要进一步验证的内容

多数据集验证：在更多罕见疾病相关数据集上验证AutoRD系统的性能。
跨语言支持：扩展系统以支持多种语言，特别是医疗领域常用的语言。

七、非技术背景读者的启发与背景知识补充

启发

本文展示了AI技术在医疗健康领域的广泛应用前景。作为非技术背景的读者，可以认识到AI技术对于提高医疗效率、促进医疗知识共享等方面的重要作用。同时，也鼓励读者关注医疗健康领域与AI技术的交叉融合，发掘更多的商业机会和创新点。

背景知识补充

罕见疾病：指发病率极低的疾病，通常由于基因突变等原因引起。由于罕见性，这些疾病往往缺乏足够的医学知识和治疗手段。
知识图谱：一种以图形方式展示实体及其之间关系的知识库。在医疗健康领域，知识图谱可以为医生提供全面的疾病信息和诊断支持。
大型语言模型（LLMs）：一种基于深度学习的自然语言处理模型，能够理解和生成人类语言。近年来，LLMs在医疗健康领域的应用越来越广泛，为医疗知识的自动化提取和分析提供了新的解决方案。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

AutoRD：罕见疾病知识图自动构建系统——基于大语言模型和本体论技术的端到端解决方案