Digital Health Insider: Fact Finder：知识图谱助力大型语言模型成为领域专家

近年来，大型语言模型 (LLM) 在回答自然语言查询方面取得了显著进展。然而，它们的有效性受到有限的特定领域知识的阻碍，引发了对其响应可靠性的担忧。我们介绍了一种混合系统，该系统通过特定领域知识图谱 (KG) 增强 LLM，从而旨在使用基于 KG 的检索方法提高事实准确性。我们专注于医学 KG 来展示我们的方法，其中包括 (1) 预处理，(2) Cypher 查询生成，(3) Cypher 查询处理，(4) KG 检索和 (5) LLM 增强响应生成。我们在一个包含 69 个样本的精选数据集上评估我们的系统，在检索正确的 KG 节点方面实现了 78% 的准确率。我们的研究结果表明，混合系统在准确性和完整性方面优于独立的 LLM，这一点已通过以 LLM 作为评判者的评估方法得到验证。这使得该系统成为需要事实准确性和完整性的应用（例如目标识别，即识别用于疾病治疗或作物改良的生物实体的关键过程）的有希望的工具。此外，其直观的搜索界面和在几秒钟内提供准确响应的能力使其非常适合对时间敏感、注重精确度的研究环境。我们已将源代码、数据集和使用的提示模板公开发布.

1. 研究目标与相关工作

研究目标：

开发一个混合系统，通过结合领域特定知识图谱 (KG) 来增强 LLM 的能力，特别是提高事实正确性。

专注于医学 KG，展示将 LLM 与 KG 结合以回答科学问题的方法。

实际问题：

LLM 虽然在自然语言理解和生成方面取得了很大进展，但其领域特定知识有限，导致回答可靠性不足。

生命科学领域需要高度准确和完整的信息，而 LLM 经常出现幻觉或遗漏重要实体。

目标识别等生命科学应用需要获取最新的文献和数据，而 LLM 的训练数据可能过时。

科学假设：

通过使用 KG 检索方法，可以增强 LLM 的领域特定知识，并提高其在回答科学问题时的准确性和完整性。

相关研究：

知识图谱 (KG)：KG 用于组织和表示实体及其关系的结构化数据，例如 PrimeKG (Chandak et al., 2023)。

检索增强生成 (RAG)：利用外部知识库增强 LLM 回答问题的能力 (Lewis et al., 2021)。

文本到 Cypher 转换: 将自然语言问题转换为可执行的 Cypher 查询以检索 KG 信息 (Srivastava et al., 2021)。

LLM 在生命科学中的应用: Med-PaLM 2 (Nori et al., 2023), GatorTron (Waisberg et al., 2023), BioMedLM (Bašaragin et al., 2024)。

值得关注的研究员：

Payal Chandak: PrimeKG 知识图谱的主要开发者之一，专注于构建支持精准医疗的知识图谱。

Patrick Lewis: Google Research, RAG 框架的提出者之一，研究方向包括信息检索和自然语言处理。

Harsha Nori: Microsoft Research, Med-PaLM 2 的主要作者之一，研究方向包括 LLM 在医疗领域的应用和评估。

2. 新思路、方法和模型

新思路：

利用医学 KG 作为外部知识库，增强 LLM 回答科学问题的准确性和完整性。

使用 LLM 生成 Cypher 查询，从 KG 中检索相关信息。

将 KG 检索结果和原始问题作为输入，引导 LLM 生成更准确、完整的回答。

关键方法：

Cypher 查询生成: 使用 LLM 将自然语言问题转换为 Cypher 查询，利用提示工程提供图模式和关系描述。

查询预处理: 对生成的 Cypher 查询进行预处理，包括格式化、属性值小写转换、同义词选择和代码修正，以提高系统鲁棒性。

图问答和语言化: 执行 Cypher 查询，从 KG 中检索相关节点，并将结果和问题一起输入 LLM，生成最终的自然语言答案。

可解释性: Fact Finder 提供 Cypher 查询、图响应和子图可视化等证据，提高系统的透明度和可信度。

模型特点和优势：

易于使用: Fact Finder 提供一个用户友好的界面，允许用户输入问题并查看答案以及相关证据。

事实正确性: 通过结合医学 KG，Fact Finder 可以提供更准确和完整的答案，减少 LLM 幻觉。

可解释性: Fact Finder 提供多种形式的证据，使用户可以理解系统如何得出答案。

高效性: Fact Finder 可以在几秒钟内提供准确的答案，适合时间敏感的研究环境。

3. 实验设计与结果分析

实验设计：

数据集: 使用 PrimeKG 作为医学知识图谱，并手动构建了一个包含 69 个文本-Cypher 查询对的数据集，用于评估 Cypher 查询生成性能。

LLM 模型: 使用 GPT-4 和 GPT-4-Turbo 进行实验。

评估指标: 使用 IoU、准确率和召回率评估 Cypher 查询生成性能，并使用 LLM-as-a-Judge 方法评估答案的正确性和完整性。

实验数据和结果：

表 1 展示了不同 LLM 模型在 Cypher 查询生成任务上的性能。GPT-40 在没有实体增强的情况下表现最佳，IoU 超过 75%。

表 2 展示了 Fact Finder 在处理不正确图响应时的能力。结果表明，LLM 可以识别不相关的 KG 结果，并拒绝回答问题，提高了系统的可靠性。

图 7 和 图 8 展示了 Fact Finder 的用户界面，以及 LLM 单独回答和结合 KG 回答的对比。

实验结果对科学假设的支持：

实验结果表明，结合医学 KG 的 Fact Finder 能够生成更准确、完整的答案，并提供可解释的证据，支持了论文的科学假设。

关键数据：

GPT-40 在 Cypher 查询生成任务上获得了 75.2% 的 IoU。

在 LLM-as-a-Judge 评估中，Fact Finder 在 94.12% 的案例中提供了更准确的答案，在 96.08% 的案例中提供了更完整的答案。

4. 论文贡献与业界影响

论文贡献：

提出 Fact Finder 混合系统: 结合 KG 和 LLM，提高 LLM 在生命科学领域回答科学问题的能力。

展示 LLM 生成 Cypher 查询的可行性: 为从 KG 检索信息提供了一种新的方法。

提供可解释的证据: 增强用户对系统的信任和理解。

业界影响：

促进生命科学领域 AI 应用的开发: Fact Finder 可以用于构建各种 AI 应用，例如辅助诊断、药物发现、文献检索等。

提高生命科学研究效率: Fact Finder 可以帮助研究人员快速获取准确和完整的信息，加速研究进程。

推动知识图谱和 LLM 的融合: Fact Finder 为 KG 和 LLM 的结合提供了新的思路和方法。

潜在应用场景和商业机会：

药物发现: Fact Finder 可以帮助研究人员识别潜在的药物靶点，并预测药物的疗效和安全性。

精准医疗: Fact Finder 可以根据患者的基因信息和病史，提供个性化的治疗方案。

临床决策支持: Fact Finder 可以辅助医生进行诊断和治疗决策，提高医疗服务的质量和效率。

作为工程师，你应该关注：

Cypher 查询生成: 研究如何提高 LLM 生成 Cypher 查询的准确率和效率。

知识图谱构建: 研究如何构建高质量的医学知识图谱，并使其保持最新。

用户界面设计: 设计用户友好的界面，方便用户与系统交互。

5. 未来研究方向和挑战

扩展到其他领域: 将 Fact Finder 扩展到其他需要专业知识的领域，例如金融、法律等。

多语言支持: 支持多语言问题和答案，扩展系统的适用范围。

多知识图谱整合: 整合来自多个 KG 的信息，提供更全面的知识覆盖。

实时更新: 使系统能够实时更新 KG，以反映最新的研究成果和数据。

新的技术和投资机会：

文本到 Cypher 转换工具: 开发更强大的文本到 Cypher 转换工具，提高查询生成效率。

领域特定知识图谱构建平台: 开发用于构建和维护领域特定 KG 的平台。

可解释性 AI 技术: 投资于可解释性 AI 技术的研发，提高系统的透明度和可信度。

6. 论文的不足与缺失

数据集规模: 论文使用的文本-Cypher 查询对数据集规模较小，可能不足以全面评估系统的性能。

缺乏对模型不确定性的评估: Fact Finder 没有提供对答案不确定性的评估，这在某些情况下可能很重要。

仅关注医学领域: Fact Finder 目前仅关注医学领域，其在其他领域的表现尚不清楚。

需要进一步验证和存疑的：

模型泛化能力: Fact Finder 在处理未见过的科学问题时的表现如何？

查询生成效率: 当问题复杂度增加时，LLM 生成 Cypher 查询的效率如何？

系统可扩展性: 当 KG 规模增加时，Fact Finder 的性能如何？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Fact Finder：知识图谱助力大型语言模型成为领域专家