Digital Health Insider

DiReCT：利用大型语言模型实现智能化的临床记录诊断推理

近年来，大型语言模型 (LLM) 在众多任务和应用中展现出卓越的能力，其中也包括医疗领域。像 GPT-4 这样的模型在医学问答方面表现出色，但在处理真实临床环境中的复杂任务时，可能面临缺乏可解释性的挑战。因此，我们引入了临床记录诊断推理数据集 (DiReCT)，旨在评估 LLM 与人类医生相比的推理能力和可解释性。该数据集包含 511 份临床记录，每份记录都由医生精心注释，详细描述了从临床观察到最终诊断的推理过程。此外，还提供了一个诊断知识图谱，以提供推理所需的基本知识，而这些知识可能未包含在现有 LLM 的训练数据中。在 DiReCT 上对领先 LLM 的评估表明，它们的推理能力与人类医生之间存在显著差距，这突显了对能够在现实世界临床场景中有效推理的模型的迫切需求。

1. 研究目标与相关工作

研究目标：

创建一个新的基准数据集 DiReCT，用于评估 LLM 在更贴近真实临床场景下的诊断推理能力和可解释性。

通过 DiReCT 评估当前 SOTA LLM 的诊断推理能力，并与人类医生进行比较，识别差距和挑战。

实际问题：

现有医学问答数据集和评估方法多关注简单任务，无法全面评估 LLM 在复杂真实场景下的能力。

临床诊断需要综合多种信息进行多步骤推理，现有 LLM 在长文本理解、多证据推理和可解释性方面存在不足。

科学假设：

通过构建一个包含详细诊断推理过程和诊断知识图谱的基准数据集，可以更全面地评估 LLM 的诊断推理能力，并揭示 LLM 与人类医生之间的差距。

相关研究：

医学问答数据集: MedMCQA (Pal et al., 2022), ExplainCPE (Li et al., 2023), JAMA Challenge (Chen et al., 2024) 等。

医学自然语言推理数据集: NLI4CT (Jullien et al., 2023)。

医学文本摘要数据集: N2N2 (Gao et al., 2022)。

临床诊断推理数据集: NEJM CPC (Zack et al., 2023), DR.BENCH (Gao et al., 2023b)。

自然语言解释: [Camburu et al., 2018], [Rajani et al., 2019], [DeYoung et al., 2020], [Jhamtani and Clark, 2020], [Tafjord et al., 2021], [Dalvi et al., 2021], [Zhao et al., 2021], [Zhang et al., 2024] 等。

值得关注的研究员：

Yanjun Gao: 在医学自然语言处理领域发表了多篇重要论文，包括 N2N2、DR.BENCH 和 DiReCT 数据集。

Ankit Pal: MedMCQA 数据集的主要作者之一，专注于医学领域问答系统的研究。

Mael Jullien: NLI4CT 数据集的主要作者之一，研究方向包括医学自然语言推理和多跳推理。

2. 新思路、方法和模型

新思路：

构建一个包含详细诊断推理过程注释的临床笔记数据集，包括观察结果、推理依据和最终诊断。

提供一个诊断知识图谱，编码现有诊断指南中的诊断标准和推理路径，辅助模型理解和推理。

关键方法：

数据集构建: 从 MIMIC-IV 数据库中选取包含 25 种疾病类别的 511 份临床笔记。

数据标注: 由专业医生对每份临床笔记进行精细标注，包括：

观察结果: 从临床笔记中提取支持特定诊断的文本片段。

推理依据: 解释为什么观察结果支持该诊断，并与诊断知识图谱中的前提对应。

最终诊断: 临床笔记的主要出院诊断。

诊断知识图谱构建: 基于现有诊断指南，构建一个包含前提 (医学陈述) 和诊断节点的知识图谱，并定义两种边:

支持边: 连接前提节点和诊断节点，表示前提是诊断的必要条件。

流程边: 连接诊断节点，表示诊断流程。

模型特点和优势：

更贴近真实临床场景: DiReCT 数据集包含完整的诊断推理过程，更能反映医生在实际工作中的思考方式。

多证据推理: DiReCT 需要模型整合多个观察结果进行推理，更具挑战性。

可解释性: DiReCT 的标注包含详细的推理依据，可以评估模型推理过程的可解释性。

诊断知识图谱: 提供额外的诊断知识，辅助模型理解和推理。

3. 实验设计与结果分析

实验设计：

基线模型: 设计一个基于 AI agent 的基线模型，利用诊断知识图谱将诊断任务分解为一系列子任务。

评估模型: 使用 7 种不同规模和类型的 LLM，包括 LLama3, Zephyr, Mistral, Mixtral, GPT-3.5 和 GPT-4。

任务设置:

任务 1: 给定临床笔记和诊断流程图，预测最终诊断和推理解释。

任务 2: 给定临床笔记和完整的诊断知识图谱，预测最终诊断和推理解释。

任务 3: 仅给定临床笔记，预测最终诊断。

评估指标:

诊断准确率 (Accdiag)

疾病类别准确率 (Acccat)

观察结果完整度 (Obscomp)

解释忠实度 (Faith)

观察结果准确率 (Obspre)

观察结果召回率 (Obsrec)

解释完整度 (Expcom)

解释覆盖率 (Expall)

实验数据和结果：

表 3 展示了不同 LLM 在基线模型上的性能。GPT-4 在大多数指标上表现最佳，尤其是在观察结果和解释相关指标上。

表 4 展示了在没有外部知识的情况下，LLM 的诊断推理能力。结果表明，缺乏外部知识会显著降低模型性能。

图 5 展示了 LLama3 70B, GPT-3.5 和 GPT-4 在不同疾病类别上的性能。不同模型在不同疾病类别上的表现存在差异。

表 5 展示了自动评估指标与人工评估的一致性。结果表明，自动评估指标与人工判断基本一致。

图 6 展示了 GPT-4 在一个案例上的预测结果示例，模型正确识别了一些观察结果，但推理过程存在错误，导致最终诊断错误。

实验结果对科学假设的支持：

实验结果表明，即使是目前最先进的 LLM 在 DiReCT 数据集上的表现也远不如人类医生，特别是在观察结果提取、推理依据生成和跨领域泛化方面。这说明当前 LLM 缺乏对医学知识的深入理解和推理能力，需要进一步研究和改进。

关键数据：

在任务 1 中，GPT-4 的诊断准确率为 77.2%，观察结果完整度为 49.1%，解释忠实度为 47.5%。

在没有外部知识的情况下 (任务 3)，GPT-4 的诊断准确率降至 7.4%。

自动评估指标与人工评估的一致性在 80% 以上。

4. 论文贡献与业界影响

论文贡献：

提出了一个新的医学诊断推理基准数据集 DiReCT，包含详细的诊断推理过程和诊断知识图谱。

通过 DiReCT 评估了当前 SOTA LLM 的诊断推理能力，揭示了 LLM 与人类医生之间的显著差距。

为医学领域 LLM 的评估和改进提供了新的方向。

业界影响：

推动医学领域 LLM 的发展: DiReCT 为研究人员提供了一个更全面、更具挑战性的评估基准，可以促进更强大、更可解释的医学 LLM 的发展。

提高医疗 AI 应用的可靠性: DiReCT 可以帮助评估和改进用于辅助诊断、医学文献检索等任务的 LLM 模型，提高医疗 AI 应用的可靠性。

潜在应用场景和商业机会：

辅助诊断系统: 开发基于 LLM 的辅助诊断系统，帮助医生更快、更准确地诊断疾病。

医学文献分析: 开发基于 LLM 的医学文献分析工具，帮助研究人员快速获取和理解最新的医学知识。

患者教育: 开发基于 LLM 的患者教育工具，为患者提供个性化的疾病信息和治疗建议。

作为工程师，你应该关注：

医学知识图谱的构建: 研究如何构建高质量的医学知识图谱，并将其与 LLM 有效地结合。

多跳推理: 研究如何提高 LLM 的多跳推理能力，使其能够整合多个证据进行推理。

可解释性: 研究如何提高 LLM 的可解释性，使其推理过程更加透明和可理解。

5. 未来研究方向和挑战

更复杂的诊断场景: 将 DiReCT 扩展到更复杂的诊断场景，例如多疾病诊断、罕见病诊断等。

多模态数据: 将 DiReCT 扩展到多模态数据，例如医学图像、实验室检查结果等。

个性化: 开发针对不同疾病类别、不同患者群体的个性化 LLM 模型。

实时应用: 探索 DiReCT 在实时临床环境中的应用，例如辅助医生进行实时诊断。

新的技术和投资机会：

医学知识图谱构建工具: 开发用于构建和维护医学知识图谱的工具。

多跳推理算法: 开发更高效、更准确的多跳推理算法，用于 LLM 模型。

可解释性 AI 技术: 投资于可解释性 AI 技术的研发，提高 LLM 模型的透明度和可信度。

6. 论文的不足与缺失

数据集规模: DiReCT 的规模相对较小，未来需要构建更大规模、更多样化的数据集。

疾病类别覆盖: DiReCT 仅涵盖 25 种疾病类别，未来需要扩展到更多疾病类别。

缺乏对模型不确定性的评估: DiReCT 没有评估模型对预测结果的置信度，未来可以考虑加入不确定性评估指标。

需要进一步验证和存疑的：

诊断知识图谱的作用: 诊断知识图谱对模型性能的提升程度有多大？

不同 LLM 架构的影响: 不同 LLM 架构 (例如 Transformer, RNN) 对诊断推理能力的影响？

模型的鲁棒性: 模型对噪声数据、错误信息、罕见案例的鲁棒性如何？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

Fact Finder：知识图谱助力大型语言模型成为领域专家

近年来，大型语言模型 (LLM) 在回答自然语言查询方面取得了显著进展。然而，它们的有效性受到有限的特定领域知识的阻碍，引发了对其响应可靠性的担忧。我们介绍了一种混合系统，该系统通过特定领域知识图谱 (KG) 增强 LLM，从而旨在使用基于 KG 的检索方法提高事实准确性。我们专注于医学 KG 来展示我们的方法，其中包括 (1) 预处理，(2) Cypher 查询生成，(3) Cypher 查询处理，(4) KG 检索和 (5) LLM 增强响应生成。我们在一个包含 69 个样本的精选数据集上评估我们的系统，在检索正确的 KG 节点方面实现了 78% 的准确率。我们的研究结果表明，混合系统在准确性和完整性方面优于独立的 LLM，这一点已通过以 LLM 作为评判者的评估方法得到验证。这使得该系统成为需要事实准确性和完整性的应用（例如目标识别，即识别用于疾病治疗或作物改良的生物实体的关键过程）的有希望的工具。此外，其直观的搜索界面和在几秒钟内提供准确响应的能力使其非常适合对时间敏感、注重精确度的研究环境。我们已将源代码、数据集和使用的提示模板公开发布.

1. 研究目标与相关工作

研究目标：

开发一个混合系统，通过结合领域特定知识图谱 (KG) 来增强 LLM 的能力，特别是提高事实正确性。

专注于医学 KG，展示将 LLM 与 KG 结合以回答科学问题的方法。

实际问题：

LLM 虽然在自然语言理解和生成方面取得了很大进展，但其领域特定知识有限，导致回答可靠性不足。

生命科学领域需要高度准确和完整的信息，而 LLM 经常出现幻觉或遗漏重要实体。

目标识别等生命科学应用需要获取最新的文献和数据，而 LLM 的训练数据可能过时。

科学假设：

通过使用 KG 检索方法，可以增强 LLM 的领域特定知识，并提高其在回答科学问题时的准确性和完整性。

相关研究：

知识图谱 (KG)：KG 用于组织和表示实体及其关系的结构化数据，例如 PrimeKG (Chandak et al., 2023)。

检索增强生成 (RAG)：利用外部知识库增强 LLM 回答问题的能力 (Lewis et al., 2021)。

文本到 Cypher 转换: 将自然语言问题转换为可执行的 Cypher 查询以检索 KG 信息 (Srivastava et al., 2021)。

LLM 在生命科学中的应用: Med-PaLM 2 (Nori et al., 2023), GatorTron (Waisberg et al., 2023), BioMedLM (Bašaragin et al., 2024)。

值得关注的研究员：

Payal Chandak: PrimeKG 知识图谱的主要开发者之一，专注于构建支持精准医疗的知识图谱。

Patrick Lewis: Google Research, RAG 框架的提出者之一，研究方向包括信息检索和自然语言处理。

Harsha Nori: Microsoft Research, Med-PaLM 2 的主要作者之一，研究方向包括 LLM 在医疗领域的应用和评估。

2. 新思路、方法和模型

新思路：

利用医学 KG 作为外部知识库，增强 LLM 回答科学问题的准确性和完整性。

使用 LLM 生成 Cypher 查询，从 KG 中检索相关信息。

将 KG 检索结果和原始问题作为输入，引导 LLM 生成更准确、完整的回答。

关键方法：

Cypher 查询生成: 使用 LLM 将自然语言问题转换为 Cypher 查询，利用提示工程提供图模式和关系描述。

查询预处理: 对生成的 Cypher 查询进行预处理，包括格式化、属性值小写转换、同义词选择和代码修正，以提高系统鲁棒性。

图问答和语言化: 执行 Cypher 查询，从 KG 中检索相关节点，并将结果和问题一起输入 LLM，生成最终的自然语言答案。

可解释性: Fact Finder 提供 Cypher 查询、图响应和子图可视化等证据，提高系统的透明度和可信度。

模型特点和优势：

易于使用: Fact Finder 提供一个用户友好的界面，允许用户输入问题并查看答案以及相关证据。

事实正确性: 通过结合医学 KG，Fact Finder 可以提供更准确和完整的答案，减少 LLM 幻觉。

可解释性: Fact Finder 提供多种形式的证据，使用户可以理解系统如何得出答案。

高效性: Fact Finder 可以在几秒钟内提供准确的答案，适合时间敏感的研究环境。

3. 实验设计与结果分析

实验设计：

数据集: 使用 PrimeKG 作为医学知识图谱，并手动构建了一个包含 69 个文本-Cypher 查询对的数据集，用于评估 Cypher 查询生成性能。

LLM 模型: 使用 GPT-4 和 GPT-4-Turbo 进行实验。

评估指标: 使用 IoU、准确率和召回率评估 Cypher 查询生成性能，并使用 LLM-as-a-Judge 方法评估答案的正确性和完整性。

实验数据和结果：

表 1 展示了不同 LLM 模型在 Cypher 查询生成任务上的性能。GPT-40 在没有实体增强的情况下表现最佳，IoU 超过 75%。

表 2 展示了 Fact Finder 在处理不正确图响应时的能力。结果表明，LLM 可以识别不相关的 KG 结果，并拒绝回答问题，提高了系统的可靠性。

图 7 和 图 8 展示了 Fact Finder 的用户界面，以及 LLM 单独回答和结合 KG 回答的对比。

实验结果对科学假设的支持：

实验结果表明，结合医学 KG 的 Fact Finder 能够生成更准确、完整的答案，并提供可解释的证据，支持了论文的科学假设。

关键数据：

GPT-40 在 Cypher 查询生成任务上获得了 75.2% 的 IoU。

在 LLM-as-a-Judge 评估中，Fact Finder 在 94.12% 的案例中提供了更准确的答案，在 96.08% 的案例中提供了更完整的答案。

4. 论文贡献与业界影响

论文贡献：

提出 Fact Finder 混合系统: 结合 KG 和 LLM，提高 LLM 在生命科学领域回答科学问题的能力。

展示 LLM 生成 Cypher 查询的可行性: 为从 KG 检索信息提供了一种新的方法。

提供可解释的证据: 增强用户对系统的信任和理解。

业界影响：

促进生命科学领域 AI 应用的开发: Fact Finder 可以用于构建各种 AI 应用，例如辅助诊断、药物发现、文献检索等。

提高生命科学研究效率: Fact Finder 可以帮助研究人员快速获取准确和完整的信息，加速研究进程。

推动知识图谱和 LLM 的融合: Fact Finder 为 KG 和 LLM 的结合提供了新的思路和方法。

潜在应用场景和商业机会：

药物发现: Fact Finder 可以帮助研究人员识别潜在的药物靶点，并预测药物的疗效和安全性。

精准医疗: Fact Finder 可以根据患者的基因信息和病史，提供个性化的治疗方案。

临床决策支持: Fact Finder 可以辅助医生进行诊断和治疗决策，提高医疗服务的质量和效率。

作为工程师，你应该关注：

Cypher 查询生成: 研究如何提高 LLM 生成 Cypher 查询的准确率和效率。

知识图谱构建: 研究如何构建高质量的医学知识图谱，并使其保持最新。

用户界面设计: 设计用户友好的界面，方便用户与系统交互。

5. 未来研究方向和挑战

扩展到其他领域: 将 Fact Finder 扩展到其他需要专业知识的领域，例如金融、法律等。

多语言支持: 支持多语言问题和答案，扩展系统的适用范围。

多知识图谱整合: 整合来自多个 KG 的信息，提供更全面的知识覆盖。

实时更新: 使系统能够实时更新 KG，以反映最新的研究成果和数据。

新的技术和投资机会：

文本到 Cypher 转换工具: 开发更强大的文本到 Cypher 转换工具，提高查询生成效率。

领域特定知识图谱构建平台: 开发用于构建和维护领域特定 KG 的平台。

可解释性 AI 技术: 投资于可解释性 AI 技术的研发，提高系统的透明度和可信度。

6. 论文的不足与缺失

数据集规模: 论文使用的文本-Cypher 查询对数据集规模较小，可能不足以全面评估系统的性能。

缺乏对模型不确定性的评估: Fact Finder 没有提供对答案不确定性的评估，这在某些情况下可能很重要。

仅关注医学领域: Fact Finder 目前仅关注医学领域，其在其他领域的表现尚不清楚。

需要进一步验证和存疑的：

模型泛化能力: Fact Finder 在处理未见过的科学问题时的表现如何？

查询生成效率: 当问题复杂度增加时，LLM 生成 Cypher 查询的效率如何？

系统可扩展性: 当 KG 规模增加时，Fact Finder 的性能如何？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.