CancerKG.ORG – Web规模、交互式、可验证的知识图谱与大语言模型混合,用于辅助优化癌症治疗和护理

在此,我们描述了首批 Web 规模的混合知识图谱 (KG) - 大语言模型 (LLM) 系统之一,该系统整合了关于结直肠癌的最新同行评审医学知识。目前正在评估其在莫菲特癌症中心辅助医学研究和临床信息检索任务方面的能力,莫菲特癌症中心是美国乃至世界顶尖的癌症中心之一。我们的混合系统之所以卓越,在于它能比单独的大语言模型、知识图谱或搜索引擎更好地满足用户需求。已知大语言模型本身就容易产生幻觉和灾难性遗忘,并且是在过时的语料库上训练的。诸如 PrimeKG、cBioPortal ChEMBL、NCBI 等最先进的知识图谱需要人工管理,因此很快就会过时。CancerKG 是无监督的,能够自动摄取和组织最新的医学研究成果。为弥补大语言模型的不足,经过验证的知识图谱作为检索增强生成 (RAG) 的保障。CancerKG 展示了 5 种不同的高级用户界面,每种界面都经过定制,旨在更优、更便捷地服务于不同的数据模态。

1. 论文概述

1.1 研究目标及解决的实际问题

这篇论文介绍了一个名为 CancerKG.ORG 的系统,其研究目标是构建一个基于网络的、可交互的、可验证的知识图谱 (KG) - 大型语言模型 (LLM) 混合系统,以辅助结直肠癌的最佳治疗和护理

该系统旨在解决以下实际问题:

  • 医学知识更新迅速,难以获取和掌握最新的最佳实践:论文指出,已发表的同行评审医学知识和实践每隔几个月就会翻一番[29],这使得快速获取和掌握最新知识变得困难。医生、患者及其家属都需要耗费大量时间在 Google、PubMed 等平台上搜索、阅读和筛选信息,效率低下[19, 35, 36, 39, 40, 62, 68, 70]。

  • 传统的知识图谱和大型语言模型存在局限性:传统的知识图谱(如 PrimeKG、cBioPortal、ChEMBL 等)需要人工管理,容易过时且覆盖范围有限;大型语言模型(如 GPT-4)虽然可以自动学习,但存在“幻觉”[2]和“灾难性遗忘”[3]的问题,并且训练数据过时(例如,GPT-4 的数据截止日期为 2021 年 9 月 [4]),重新训练成本高昂。

1.2 科学假设及相关研究

该论文的核心科学假设是:结合知识图谱和大型语言模型的优势,可以构建一个更可靠、更及时、更有效的系统,用于辅助癌症治疗和护理。 具体来说,论文试图验证以下几个子假设:

  1. 利用最新的医学文献数据,可以自动构建和更新一个针对特定癌症(结直肠癌)的知识图谱。

  2. 通过将知识图谱作为检索增强生成(RAG)的约束,可以减轻大型语言模型的“幻觉”和“灾难性遗忘”问题。

  3. 结合知识图谱的可验证性和多模态内容兼容性,以及大型语言模型的自然语言处理能力,可以提供多种用户友好的交互界面,方便用户访问和理解医学知识。

相关研究及分类:

这篇论文的研究属于医学信息学人工智能的交叉领域,具体可以归类为以下几个方向:

  • 医学知识图谱构建:构建医学知识图谱旨在将医学知识以结构化的形式表示,方便计算机理解和应用。相关研究包括 PrimeKG [26]、cBioPortal [25]、ChEMBL [33] 等,这些研究主要关注特定类型的医学数据(例如基因、药物等)和手动构建知识图谱。

  • 检索增强生成(Retrieval Augmented Generation, RAG):RAG 是一种将检索和生成相结合的技术,通过从外部知识库中检索相关信息来增强生成模型的输出。相关研究包括 REALM [15] 等,这些研究主要关注如何将检索到的信息有效地融合到生成模型中。

  • 大型语言模型在医学领域的应用:利用大型语言模型处理医学文本数据,例如问答、文本生成、信息抽取等。相关研究包括 BioBERT [31] 等,这些研究主要关注如何针对医学领域数据对大型语言模型进行微调。

1.3 领域内值得关注的研究员

论文中引用的参考文献涉及多个相关领域的研究人员,以下是一些值得关注的研究员及其代表性工作(部分):

  • Marinka Zitnik (哈佛大学):PrimeKG [26] 的作者之一,主要研究方向为生物医学知识图谱、图神经网络等。

  • Jeff Dean (Google):FLAN-T5 [27] 的作者之一,Google AI 的负责人,主要研究方向为大规模机器学习、深度学习等。

  • Yannis KatsisLucian Popa:论文[20]的作者,研究方向是信息集成,数据转换。

  • Erhard Rahm: 论文[24] 的作者,研究方向为数据库和信息系统,数据集成。

2. 论文提出的新思路、方法或模型,以及解决方案的关键和特点优势

2.1 新思路、方法和模型

这篇论文提出了一种新的基于知识图谱 (KG) 和大型语言模型 (LLM) 的混合架构,用于构建一个可扩展、可交互、可验证的医学知识问答系统——CancerKG.ORG。该系统的主要创新点在于:

  • 无监督的知识图谱构建和更新:与传统的手动构建知识图谱不同,CancerKG.ORG 能够自动从 PubMed 等医学文献数据库中提取信息,构建和更新知识图谱,实现知识的自动获取和更新。

  • 基于 RAG 的 LLM 增强:利用知识图谱作为 RAG 的约束,减轻 LLM 的“幻觉”和“灾难性遗忘”问题,提高生成结果的可靠性和准确性。

  • 多模态交互界面:提供多种用户友好的交互界面,包括交互式知识图谱浏览、结构化搜索、自然语言问答和 3D 元数据画像,方便用户以不同的方式访问和理解医学知识。

2.2 解决方案的关键

CancerKG.ORG 解决方案的关键在于以下几个方面:

  1. 数据源:利用 PubMed 上最新的同行评审医学文献作为数据源,保证了知识的时效性和权威性。

  2. 知识图谱的构建和更新

    • 初始种子 KG:由数据科学家手动初始化一个包含 10-20 个节点的小型验证 KG(图 1 中的 №1)。

    • 数据处理和存储:将医学文献解析、后处理并以半结构化格式(JSON)存储,便于后续处理(图 1 中的 №3)。

    • 深度学习模型:使用在 NVIDIA GPU 集群上训练的深度学习模型(图 1 中的 №4),对文献中的表格进行主题分类和聚类(图 1 中的 №5),并提取层次化的知识图谱片段(图 1 中的 №6)。论文中详细描述了用于表格主题分类的 GRU 模型(第 4 节)。

    • 知识融合:将新的知识图谱片段融合到已有的知识图谱中(图 1 中的 №14),实现知识图谱的自动更新。论文中详细描述了知识融合的过程(第 5.2 节)。

  3. LLM 的微调和应用

    • 微调:在 CancerKG 数据集上微调多个 LLM,例如 Llama 2、GPT-2、GPT-4 和 FLAN-T5(图 1 中的 №4)。

    • RAG 约束:将知识图谱作为 RAG 的约束,利用知识图谱中的实体和关系来指导 LLM 的生成过程。

    • 自然语言问答:用户可以通过自然语言与 LLM 交互,LLM 会结合知识图谱中的信息生成答案。

  4. 用户交互界面

    • 交互式知识图谱:用户可以浏览和探索知识图谱,点击节点查看相关的表格和元数据画像(第 3.1 节,图 2)。

    • 结构化搜索:用户可以通过指定字段(例如年龄、性别、肿瘤类型等)来搜索相关的表格(第 3.2 节,图 3)。

    • 自然语言问答:用户可以用自然语言提问,LLM 会生成答案并结合相关的表格(第 3.3 节)。

    • 3D 元数据画像:提供了一种可视化的方式来展示表格数据的元数据信息(第 3.4 节,图 5)。

2.3 特点和优势

与之前的方法相比,CancerKG.ORG 的主要特点和优势在于:

  • 可验证性:基于权威的医学文献数据,并且可以追溯信息的来源,提高了结果的可信度。

  • 可扩展性:能够自动从新的医学文献中提取信息,构建和更新知识图谱,可以适应不断增长的医学知识。

  • 时效性:利用最新的医学文献数据,保证了知识的时效性。

  • 用户友好性:提供多种交互界面,方便用户以不同的方式访问和理解医学知识。

  • 无监督性:与传统的手动构建知识图谱相比,CancerKG.ORG 的构建和更新过程是无监督的,大大降低了人工成本。

3. 论文的实验设计、数据、结果及对科学假设的支持

3.1 实验设计

论文主要通过以下几个方面的实验来验证所提出方法的有效性:

  1. 表格主题分类实验:验证 GRU 模型对医学表格进行主题分类的性能。

  2. 知识图谱构建和更新实验:验证系统自动构建和更新知识图谱的能力。

  3. 用户交互界面实验:通过案例展示系统提供的多种交互界面的功能和效果。

3.2 实验数据

论文使用了以下几个数据集:

  • PubMed:作为主要的医学文献数据来源,包含超过 250 万篇关于癌症(包括结直肠癌)的最新同行评审文献。

  • WDC [60] 和 CancerKG [74]:用于训练表格主题分类模型。

3.3 实验结果

  1. 表格主题分类实验

    • GRU 模型在 WDC 和 CancerKG 数据集上进行 10 折交叉验证,取得了约 95% 的 F-measure,表明该模型能够有效地对医学表格进行主题分类(第 4.3 节)。

      "We evaluated our models and observed approximately 95% F-measure, when validated with 10-fold cross-validation, for Deep-learning Bi-GRU- based models with slight differences depending on whether the classified metadata is horizontal or vertical, as well as its position."

  2. 知识图谱构建和更新实验

    • 论文没有给出具体的定量结果,但指出 CancerKG 存储了超过 250 万篇关于癌症的最新同行评审文献,并能够持续更新(第 3 节)。

      "Currently, CancerKG stores more than 2.5 million latest peer-reviewed publications on Cancer (including colorectal Cancer), parsed, decomposed in the KG, classified, and continuously updated with vetted knowledge from new peer-reviewed publications."

  3. 用户交互界面实验

    • 论文通过多个案例展示了系统的交互式知识图谱浏览、结构化搜索、自然语言问答和 3D 元数据画像功能(第 3 节,图 2、图 3 和图 5)。例如,在图 3 中,用户通过自然语言提问“output all latest information available about risk factors and predictive models for metastatic colorectal cancer with tumor in lymph node, size 8.45”,系统返回了相关的表格,并给出了与查询字段相关的同义词。

      "Figure 3 depicts a screenshot of search results for tables evaluating clinical outcomes with risk factors for colorectal Cancer. The user (e.g. oncologist) enters the natural language query in the conversational interface (its description is below) "output all latest information available about risk factors and predictive models for metastatic colorectal cancer with tumor in lymph node, size 8.45"."

3.4 对科学假设的支持

论文中的实验结果基本支持了需要验证的科学假设:

  • 表格主题分类实验结果表明,利用深度学习模型可以有效地对医学表格进行主题分类,为无监督的知识图谱构建奠定了基础,支持了假设 1。

  • 知识图谱构建和更新实验表明,系统能够自动从 PubMed 等医学文献数据库中提取信息,构建和更新知识图谱,支持了假设 1。

  • 用户交互界面实验通过案例展示了系统的多种交互界面的功能和效果,表明系统能够方便用户访问和理解医学知识,支持了假设 3。

然而,论文没有直接给出关于 LLM 的“幻觉”和“灾难性遗忘”问题的定量实验结果,因此对于假设 2 的支持力度较弱。

4. 论文的贡献、影响、应用场景、商业机会及工程师的关注点

4.1 论文的贡献

这篇论文的主要贡献在于:

  • 提出了一个新颖的基于知识图谱和大型语言模型的混合架构,用于构建一个可扩展、可交互、可验证的医学知识问答系统。

  • 实现了无监督的知识图谱构建和更新,可以自动从最新的医学文献中提取信息,构建和更新知识图谱。

  • 利用知识图谱作为 RAG 的约束,减轻了大型语言模型的“幻觉”和“灾难性遗忘”问题。

  • 提供了多种用户友好的交互界面,方便用户以不同的方式访问和理解医学知识。

4.2 论文的研究成果将给业界带来什么影响

这篇论文的研究成果将对医学信息学和人工智能领域产生以下影响:

  • 推动医学知识的自动化获取和更新:该论文提出的无监督知识图谱构建和更新方法,将大大降低人工构建和维护医学知识库的成本,提高知识获取和更新的效率。

  • 提高医学信息检索的准确性和可靠性:利用知识图谱增强大型语言模型,可以提高医学信息检索的准确性和可靠性,减少错误信息的传播。

  • 促进医学研究和临床实践:该论文提出的系统可以帮助医生和研究人员更方便地获取和理解最新的医学知识,从而促进医学研究和临床实践。

  • 加速药物研发: 知识图谱可以帮助研究人员识别潜在的药物靶点和候选药物,加速新药的发现和开发。

4.3 潜在的应用场景和商业机会

该论文提出的系统具有广泛的应用场景和商业机会,包括:

  • 临床决策支持:帮助医生快速获取和理解最新的医学知识,制定更优的治疗方案。例如,根据患者的具体情况,快速检索相关的临床指南、研究文献和治疗方案。

  • 医学研究:帮助研究人员快速检索和分析大量的医学文献,发现新的研究方向和潜在的药物靶点。例如,通过分析文献中提到的基因、蛋白和疾病之间的关系,发现新的药物靶点。

  • 患者教育:帮助患者更好地理解自己的病情和治疗方案,提高患者的依从性和治疗效果。例如,患者可以通过自然语言提问,了解自己的病情、治疗方案的优缺点以及可能的副作用。

  • 医学培训:提供更有效的方式培训医学生和年轻医生,提高他们的专业水平。例如,通过交互式知识图谱浏览和案例分析,帮助医学生更好地理解医学知识和临床实践。

  • 制药公司:帮助制药公司进行药物研发、市场分析和竞争情报分析。例如,通过分析文献中提到的药物和靶点,帮助制药公司发现新的药物研发方向。

  • 保险公司:帮助保险公司进行风险评估和保险定价。例如,通过分析患者的病历和基因信息,评估患者的患病风险。

4.4 工程师的关注点

作为工程师,我应该关注以下几个方面:

  • 知识图谱构建和更新技术:如何高效地从非结构化文本中提取实体和关系,构建和更新知识图谱。

  • 深度学习模型:如何设计和训练更有效的深度学习模型,用于表格主题分类、实体识别、关系抽取等任务。特别是如何构建和训练能够处理表格数据的深度学习模型。

  • 大型语言模型的微调和应用:如何针对特定领域的数据对大型语言模型进行微调,以及如何将知识图谱与大型语言模型有效地结合起来。

  • 自然语言处理技术:如何提高自然语言处理的准确性和鲁棒性,特别是医学领域的自然语言处理。

  • 用户界面设计:如何设计更友好、更高效的用户界面,方便用户与系统交互。

  • 可解释的AI(XAI):由于该系统可能用于辅助医疗决策,因此开发可解释的AI模型至关重要。需要关注如何提高模型的可解释性,让医生能够理解模型的决策过程和依据。

  • 数据隐私和安全: 医疗数据属于敏感信息, 需要特别关注数据隐私保护和系统安全问题, 采用去标识化, 差分隐私等技术保护患者隐私。

5. 未来研究方向、挑战、新技术和投资机会

5.1 未来研究方向

  • 多模态知识图谱构建:除了文本数据之外,还可以将图像、音频等多模态数据纳入知识图谱,构建更全面的医学知识库。例如,将医学影像数据与文本数据结合起来,构建多模态的疾病诊断模型。

  • 知识推理:在知识图谱上进行知识推理,发现新的知识和规律。例如,利用知识图谱推理技术,预测药物的副作用或发现新的药物适应症。

  • 个性化医疗:结合患者的基因信息、病历数据和生活习惯等,提供更个性化的医疗服务。例如,根据患者的基因信息,推荐更合适的药物和治疗方案。

  • 跨领域知识融合:将不同领域的知识图谱融合起来,例如将医学知识图谱与生物学、化学等领域的知识图谱融合起来,发现新的知识和规律。

  • 动态知识图谱构建:目前的方法主要关注静态知识图谱的构建,未来的研究可以探索如何构建动态知识图谱,以反映知识的演化过程。

  • 更强大的表征学习:研究更有效的表征学习方法,将表格数据和文本数据映射到统一的向量空间,以便更好地进行知识融合和推理。

5.2 挑战

  • 医学知识的复杂性和多样性:医学知识非常复杂和多样,如何准确地表示和处理这些知识是一个巨大的挑战。

  • 数据质量和一致性:医学文献数据的质量和一致性参差不齐,如何处理这些问题是一个挑战。

  • 知识图谱的规模和效率:如何构建和维护大规模的医学知识图谱,并保证查询和推理的效率是一个挑战。

  • 可解释性和可信度:如何提高模型的可解释性和可信度,让医生和患者能够信任模型的输出是一个挑战。

  • 伦理问题:如何确保人工智能系统在医学领域的应用符合伦理规范是一个挑战。

  • 长尾问题的处理: 如何处理长尾的罕见病, 药物和治疗方案, 使其也能被模型有效识别和利用。

5.3 新技术和投资机会

  • 图神经网络 (GNN):GNN 在处理图结构数据方面具有优势,可以用于知识图谱的表示学习、知识推理等任务。

  • 迁移学习:利用在其他领域预训练的模型,可以提高医学知识图谱构建和应用的效率。

  • 联邦学习:在保护数据隐私的前提下,利用多个机构的数据训练模型,可以提高模型的性能和泛化能力。

  • 人机协同:将人工智能系统与人类专家的知识和经验结合起来,可以提高系统的性能和可靠性。

  • 可解释的人工智能(XAI): 开发可解释的AI模型和工具, 提高AI系统在医疗领域应用的可信度和接受度。

  • 隐私计算: 发展隐私保护的机器学习技术, 如联邦学习, 差分隐私等, 促进医疗数据的安全共享和利用。

  • 垂直领域的大模型: 开发针对医疗, 生物医药等垂直领域的大语言模型, 并在这些领域的数据上进行预训练和微调。

6. 论文的不足、缺失及需进一步验证和存疑之处

6.1 论文的不足和缺失

  • 缺乏定量评估:论文主要通过案例展示了系统的功能,但缺乏对系统性能的定量评估,例如知识图谱的覆盖率、准确率、召回率,以及 LLM 生成结果的准确性、可靠性等。

  • 没有与其他系统进行比较:论文没有将 CancerKG.ORG 与其他类似的系统进行比较,例如与传统的医学信息检索系统或基于 LLM 的问答系统进行比较,难以客观评估系统的优劣。

  • 关于“幻觉”和“灾难性遗忘”问题的论证不足:论文声称利用知识图谱可以减轻 LLM 的“幻觉”和“灾难性遗忘”问题,但没有给出具体的实验结果来支持这一说法。

  • 实际应用效果未得到验证:论文提到 CancerKG.ORG 正在 Moffitt 癌症中心进行评估,但没有给出具体的评估结果,也没有说明系统是否已经在实际的临床环境中得到应用。

  • 可扩展性: 论文主要关注结直肠癌, 没有充分讨论该方法在其他疾病和领域的扩展性。

6.2 需进一步验证和存疑之处

  • 知识图谱的构建和更新算法的细节不够清晰:论文对知识图谱的构建和更新算法的描述比较笼统,一些关键的细节没有交代清楚,例如如何选择种子实体和关系,如何处理实体和关系的歧义性,如何评估知识融合的质量等。

  • LLM 的微调和应用细节不够充分:论文没有详细说明 LLM 的微调过程,例如使用了哪些训练数据,如何设置训练参数,以及如何将知识图谱的信息融入到 LLM 的生成过程中。

  • 系统的可扩展性和鲁棒性需要进一步验证:论文没有讨论系统在处理更大规模的数据集和更复杂的查询时的性能表现,也没有讨论系统对噪声数据的鲁棒性。

  • 需要更多用户研究: 需要进行更系统的用户研究, 评估医生和患者对该系统的接受度和使用体验, 验证系统的实际应用效果。

  • 长期的知识维护: 论文没有讨论长期的知识图谱维护策略, 如何持续更新知识, 以及处理知识冲突和过时的问题。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: