1. 研究目标与相关工作
创建一个新的基准数据集 DiReCT,用于评估 LLM 在更贴近真实临床场景下的诊断推理能力和可解释性。 通过 DiReCT 评估当前 SOTA LLM 的诊断推理能力,并与人类医生进行比较,识别差距和挑战。
现有医学问答数据集和评估方法多关注简单任务,无法全面评估 LLM 在复杂真实场景下的能力。 临床诊断需要综合多种信息进行多步骤推理,现有 LLM 在长文本理解、多证据推理和可解释性方面存在不足。
医学问答数据集: MedMCQA (Pal et al., 2022), ExplainCPE (Li et al., 2023), JAMA Challenge (Chen et al., 2024) 等。 医学自然语言推理数据集: NLI4CT (Jullien et al., 2023)。 医学文本摘要数据集: N2N2 (Gao et al., 2022)。 临床诊断推理数据集: NEJM CPC (Zack et al., 2023), DR.BENCH (Gao et al., 2023b)。 自然语言解释: [Camburu et al., 2018], [Rajani et al., 2019], [DeYoung et al., 2020], [Jhamtani and Clark, 2020], [Tafjord et al., 2021], [Dalvi et al., 2021], [Zhao et al., 2021], [Zhang et al., 2024] 等。
Yanjun Gao: 在医学自然语言处理领域发表了多篇重要论文,包括 N2N2、DR.BENCH 和 DiReCT 数据集。 Ankit Pal: MedMCQA 数据集的主要作者之一,专注于医学领域问答系统的研究。 Mael Jullien: NLI4CT 数据集的主要作者之一,研究方向包括医学自然语言推理和多跳推理。
2. 新思路、方法和模型
构建一个包含详细诊断推理过程注释的临床笔记数据集,包括观察结果、推理依据和最终诊断。 提供一个诊断知识图谱,编码现有诊断指南中的诊断标准和推理路径,辅助模型理解和推理。
数据集构建: 从 MIMIC-IV 数据库中选取包含 25 种疾病类别的 511 份临床笔记。 数据标注: 由专业医生对每份临床笔记进行精细标注,包括: 观察结果: 从临床笔记中提取支持特定诊断的文本片段。 推理依据: 解释为什么观察结果支持该诊断,并与诊断知识图谱中的前提对应。 最终诊断: 临床笔记的主要出院诊断。
诊断知识图谱构建: 基于现有诊断指南,构建一个包含前提 (医学陈述) 和诊断节点的知识图谱,并定义两种边: 支持边: 连接前提节点和诊断节点,表示前提是诊断的必要条件。 流程边: 连接诊断节点,表示诊断流程。
更贴近真实临床场景: DiReCT 数据集包含完整的诊断推理过程,更能反映医生在实际工作中的思考方式。 多证据推理: DiReCT 需要模型整合多个观察结果进行推理,更具挑战性。 可解释性: DiReCT 的标注包含详细的推理依据,可以评估模型推理过程的可解释性。 诊断知识图谱: 提供额外的诊断知识,辅助模型理解和推理。
3. 实验设计与结果分析
基线模型: 设计一个基于 AI agent 的基线模型,利用诊断知识图谱将诊断任务分解为一系列子任务。 评估模型: 使用 7 种不同规模和类型的 LLM,包括 LLama3, Zephyr, Mistral, Mixtral, GPT-3.5 和 GPT-4。 任务设置: 任务 1: 给定临床笔记和诊断流程图,预测最终诊断和推理解释。 任务 2: 给定临床笔记和完整的诊断知识图谱,预测最终诊断和推理解释。 任务 3: 仅给定临床笔记,预测最终诊断。
评估指标: 诊断准确率 (Accdiag) 疾病类别准确率 (Acccat) 观察结果完整度 (Obscomp) 解释忠实度 (Faith) 观察结果准确率 (Obspre) 观察结果召回率 (Obsrec) 解释完整度 (Expcom) 解释覆盖率 (Expall)
表 3 展示了不同 LLM 在基线模型上的性能。GPT-4 在大多数指标上表现最佳,尤其是在观察结果和解释相关指标上。 表 4 展示了在没有外部知识的情况下,LLM 的诊断推理能力。结果表明,缺乏外部知识会显著降低模型性能。 图 5 展示了 LLama3 70B, GPT-3.5 和 GPT-4 在不同疾病类别上的性能。不同模型在不同疾病类别上的表现存在差异。 表 5 展示了自动评估指标与人工评估的一致性。结果表明,自动评估指标与人工判断基本一致。 图 6 展示了 GPT-4 在一个案例上的预测结果示例,模型正确识别了一些观察结果,但推理过程存在错误,导致最终诊断错误。
在任务 1 中,GPT-4 的诊断准确率为 77.2%,观察结果完整度为 49.1%,解释忠实度为 47.5%。 在没有外部知识的情况下 (任务 3),GPT-4 的诊断准确率降至 7.4%。 自动评估指标与人工评估的一致性在 80% 以上。
4. 论文贡献与业界影响
提出了一个新的医学诊断推理基准数据集 DiReCT,包含详细的诊断推理过程和诊断知识图谱。 通过 DiReCT 评估了当前 SOTA LLM 的诊断推理能力,揭示了 LLM 与人类医生之间的显著差距。 为医学领域 LLM 的评估和改进提供了新的方向。
推动医学领域 LLM 的发展: DiReCT 为研究人员提供了一个更全面、更具挑战性的评估基准,可以促进更强大、更可解释的医学 LLM 的发展。 提高医疗 AI 应用的可靠性: DiReCT 可以帮助评估和改进用于辅助诊断、医学文献检索等任务的 LLM 模型,提高医疗 AI 应用的可靠性。
辅助诊断系统: 开发基于 LLM 的辅助诊断系统,帮助医生更快、更准确地诊断疾病。 医学文献分析: 开发基于 LLM 的医学文献分析工具,帮助研究人员快速获取和理解最新的医学知识。 患者教育: 开发基于 LLM 的患者教育工具,为患者提供个性化的疾病信息和治疗建议。
医学知识图谱的构建: 研究如何构建高质量的医学知识图谱,并将其与 LLM 有效地结合。 多跳推理: 研究如何提高 LLM 的多跳推理能力,使其能够整合多个证据进行推理。 可解释性: 研究如何提高 LLM 的可解释性,使其推理过程更加透明和可理解。
5. 未来研究方向和挑战
更复杂的诊断场景: 将 DiReCT 扩展到更复杂的诊断场景,例如多疾病诊断、罕见病诊断等。 多模态数据: 将 DiReCT 扩展到多模态数据,例如医学图像、实验室检查结果等。 个性化: 开发针对不同疾病类别、不同患者群体的个性化 LLM 模型。 实时应用: 探索 DiReCT 在实时临床环境中的应用,例如辅助医生进行实时诊断。
医学知识图谱构建工具: 开发用于构建和维护医学知识图谱的工具。 多跳推理算法: 开发更高效、更准确的多跳推理算法,用于 LLM 模型。 可解释性 AI 技术: 投资于可解释性 AI 技术的研发,提高 LLM 模型的透明度和可信度。
6. 论文的不足与缺失
数据集规模: DiReCT 的规模相对较小,未来需要构建更大规模、更多样化的数据集。 疾病类别覆盖: DiReCT 仅涵盖 25 种疾病类别,未来需要扩展到更多疾病类别。 缺乏对模型不确定性的评估: DiReCT 没有评估模型对预测结果的置信度,未来可以考虑加入不确定性评估指标。
诊断知识图谱的作用: 诊断知识图谱对模型性能的提升程度有多大? 不同 LLM 架构的影响: 不同 LLM 架构 (例如 Transformer, RNN) 对诊断推理能力的影响? 模型的鲁棒性: 模型对噪声数据、错误信息、罕见案例的鲁棒性如何?
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.