MALADE:基于检索增强生成和大型语言模型的药物警戒智能体协同系统

在大语言模型 (LLM) 时代,凭借其卓越的文本理解和生成能力,我们拥有前所未有的机会来开发新的、基于 LLM 的方法,以实现可信赖的医学知识综合、提取和总结。本文重点关注药物警戒 (PhV) 问题,其重要性和挑战在于从各种文本来源(例如医学文献、临床记录和药品标签)中识别药物不良事件 (ADE)。不幸的是,这项任务受到多种因素的阻碍,包括药物和结果术语的差异,以及 ADE 描述通常隐藏在大量叙述性文本中。我们提出了 MALADE,这是第一个使用检索增强生成 (Retrieval Augmented Generation) 技术的、基于 LLM 的有效协作多智能体系统,用于从药品标签数据中提取 ADE。该技术通过从文本资源中提取的相关信息增强对 LLM 的查询,并指示 LLM 生成与增强数据一致的响应。MALADE 是一种通用的、与 LLM 无关的架构,其独特的功能包括:(1) 利用各种外部来源,例如医学文献、药品标签和 FDA 工具(例如 OpenFDA 药物信息 API);(2) 以结构化格式提取药物-结果关联及其关联强度;(3) 为已建立的关联提供解释。MALADE 使用 GPT-4 Turbo 或 GPT-4o 和 FDA 药品标签数据实例化,证明了其有效性,相对于 OMOP Ground Truth ADE 表的 ROC 曲线下面积为 0.90。我们的实现利用了 Langroid 多智能体 LLM 框架,可以在 https://github.com/jihyechoi77/malade 中找到。

1. 研究目标与相关工作

研究目标:

  • 开发一个有效的多智能体系统,利用 LLM 和 RAG 技术从药物标签数据中提取 ADE 信息。

  • 提高 ADE 提取的准确性、可靠性和可解释性。

实际问题:

  • 药物警戒 (PhV) 依赖于从大量文本数据中识别 ADE,这是一项复杂且耗时的任务。

  • 现有的基于 LLM 的 ADE 提取方法存在性能有限、推理不一致、缺乏可解释性等问题。

  • LLM 缺乏对特定数据源的访问,可能导致提取结果不准确或不完整。

科学假设:

通过将 ADE 提取任务分解为多个子任务,并利用 RAG 和智能体协作机制,可以提高 LLM 在 ADE 提取任务中的性能和可靠性。

相关工作:

  • 药物警戒: Sentinel [25], OMOP [27], OHDSI [31], Huang et al. [10], von Csefalvay [37], Sorbello et al. [30], Sun et al. [32].

  • 检索增强生成 (RAG): Lewis et al. [15].

  • 多智能体系统: [43, 9, 34].

  • LLM 在医学领域的应用: [28, 29, 23, 33].

值得关注的研究员:

  • Patrick Lewis: Google Research, RAG 框架的提出者之一,研究方向包括信息检索和自然语言处理。

  • David Madigan: OMOP 的主要贡献者之一,专注于从观察性数据库中学习,特别是药物警戒。

  • Karan Singhal: Google Research, Med-PaLM 2 的主要作者之一,专注于医疗领域 LLM 的研究。

2. 新思路、方法和模型

新思路:

  • 使用多个 LLM 智能体协同工作,每个智能体负责 ADE 提取任务中的一个特定子任务。

  • 利用 RAG 为 LLM 提供最新的药物标签数据,并通过引用来源提高可解释性。

  • 使用 "Agent-Critic" 交互模式来提高智能体响应的可靠性。

关键方法:

  • 多智能体架构: MALADE 包括三个主要智能体:

    • DrugFinder: 从医学数据库中识别代表每个药物类别的药物。

    • DrugAgent: 从 FDA 药物标签数据库中收集有关特定药物对特定结果影响的信息。

    • CategoryAgent: 结合来自 DrugAgent 的药物级别信息,生成关于药物类别对结果影响的结构化报告。

  • 检索增强生成 (RAG): DrugAgent 使用 RAG 从 FDA 药物标签数据库中检索相关信息,并使用这些信息生成答案和解释。

  • Agent-Critic 交互: 每个智能体都与一个 Critic 智能体配对,Critic 负责验证智能体的行为和响应,并提供反馈以改进智能体的输出。

模型特点和优势:

  • 精确评估: MALADE 可以生成结构化的药物-结果关联报告,包括置信度评分、证据强度和效应频率,从而可以与 OMOP Ground Truth 表进行定量比较。

  • 基于证据的生成: MALADE 利用 RAG 从外部来源检索证据,并提供对提取结果的解释,提高了系统的透明度和可信度。

  • 可观察性: MALADE 记录了智能体之间的所有交互和中间步骤,方便调试和审计。

  • 通用性: MALADE 的架构与 LLM 和数据源无关,可以应用于其他药物警戒任务和医学领域。

3. 实验设计与结果分析

实验设计:

  • 数据集: 使用 FDA 药物标签数据和 MIMIC-IV 医学数据库。

  • 基准任务: OMOP ADE 任务 [19],评估模型识别药物类别与不良事件之间关联的能力。

  • LLM 模型: 使用 GPT-4 Turbo 和 GPT-4o 两种 LLM。

  • 评估指标:

    • AUC (Area Under ROC Curve): 评估模型区分正负样本的能力。

    • F1 分数: 评估模型分类的准确性。

  • 消融实验: 评估 Agent-Critic 交互和 RAG 对系统性能的影响。

实验数据和结果:

  • 表 1: MALADE 在 OMOP ADE 任务上取得了良好的性能,使用 GPT-4o 的 AUC 达到 0.90。

  • 表 2: 消融实验表明,Agent-Critic 交互和 RAG 都对系统性能有积极影响。

  • 表 3: Critic 智能体对 DrugAgent 和 CategoryAgent 的响应进行了不同程度的修正,表明 Agent-Critic 交互可以提高系统可靠性。

实验结果对科学假设的支持:

实验结果表明,MALADE 的多智能体架构、RAG 和 Agent-Critic 交互机制可以有效提高 LLM 在 ADE 提取任务中的性能和可靠性,支持了论文的科学假设。

关键数据:

  • MALADE 使用 GPT-4o 的 ADE-based AUC 为 0.90,Effect-based AUC 为 0.883。

  • CategoryAgent 的响应被 Critic 修正的比例高达 44.52%。

4. 论文贡献与业界影响

论文贡献:

  • 提出了 MALADE,第一个基于 LLM 和 RAG 的多智能体系统,用于从药物标签数据中提取 ADE。

  • 在 OMOP ADE 任务上取得了最先进的性能。

  • 通过 Agent-Critic 交互和 RAG 提高了系统的可靠性和可解释性。

业界影响:

  • 加速药物警戒研究: MALADE 可以帮助研究人员更快、更准确地识别潜在的 ADE,从而加速药物警戒研究。

  • 提高药物安全性: MALADE 可以帮助监管机构和制药公司更好地监测药物安全性,并在必要时采取措施保护公众健康。

  • 推动多智能体系统在医疗领域的应用: MALADE 展示了多智能体系统在解决复杂医学问题方面的潜力,为未来研究提供了新的方向。

潜在应用场景和商业机会:

  • 药物安全性监测: MALADE 可以用于监测药物上市后的安全性,识别潜在的 ADE 并提醒相关机构。

  • 临床决策支持: MALADE 可以为医生提供有关药物潜在风险的信息,帮助他们做出更明智的处方决策。

  • 药物研发: MALADE 可以帮助制药公司在药物研发过程中识别潜在的 ADE,从而降低开发风险。

作为工程师,你应该关注:

  • LLM 和 RAG 技术: 深入了解 LLM 和 RAG 技术,并研究如何将其应用于其他医疗领域。

  • 多智能体系统: 研究如何设计和实现高效的多智能体系统,并探索其在医疗领域的应用潜力。

  • 数据隐私和安全: 开发保护患者隐私和数据安全的解决方案,确保医疗 AI 系统的负责任使用。

5. 未来研究方向和挑战

  • 扩展到其他数据源: 将 MALADE 扩展到其他数据源,例如电子健康记录 (EHR)、医学文献和社交媒体数据。

  • 处理多语言数据: 开发能够处理多语言数据的版本,以扩展 MALADE 的适用范围。

  • 改进模型的可解释性: 研究如何更清晰地解释 MALADE 的推理过程,增强用户对系统的信任。

  • 实时监测: 开发实时监测 ADE 的版本,以便及时发现潜在的药物安全问题。

新的技术和投资机会:

  • 医疗领域 LLM: 开发专门针对医疗领域训练的 LLM,以提高 ADE 提取的准确性和效率。

  • 医学知识图谱: 构建高质量的医学知识图谱,为 LLM 提供更全面的背景知识。

  • 可解释性 AI 工具: 开发可解释性 AI 工具,帮助用户理解 LLM 的推理过程。

6. 论文的不足与缺失

  • 数据集局限性: MALADE 仅使用 FDA 药物标签数据,可能无法完全反映真实世界中 ADE 的情况。

  • 模型评估: MALADE 的评估仅限于 OMOP ADE 任务,未来需要在更多样化的任务和数据集上进行评估。

  • 缺乏与其他方法的比较: 论文没有与其他现有的 ADE 提取方法进行直接比较。

需要进一步验证和存疑的:

  • 模型的泛化能力: MALADE 在处理未见过的药物和 ADE 时的表现如何?

  • 模型的鲁棒性: MALADE 对噪声数据和错误信息的鲁棒性如何?

  • 模型的效率: MALADE 的推理速度和资源消耗如何?


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

DiReCT:利用大型语言模型实现智能化的临床记录诊断推理

近年来,大型语言模型 (LLM) 在众多任务和应用中展现出卓越的能力,其中也包括医疗领域。像 GPT-4 这样的模型在医学问答方面表现出色,但在处理真实临床环境中的复杂任务时,可能面临缺乏可解释性的挑战。因此,我们引入了临床记录诊断推理数据集 (DiReCT),旨在评估 LLM 与人类医生相比的推理能力和可解释性。该数据集包含 511 份临床记录,每份记录都由医生精心注释,详细描述了从临床观察到最终诊断的推理过程。此外,还提供了一个诊断知识图谱,以提供推理所需的基本知识,而这些知识可能未包含在现有 LLM 的训练数据中。在 DiReCT 上对领先 LLM 的评估表明,它们的推理能力与人类医生之间存在显著差距,这突显了对能够在现实世界临床场景中有效推理的模型的迫切需求。

1. 研究目标与相关工作

研究目标:

  • 创建一个新的基准数据集 DiReCT,用于评估 LLM 在更贴近真实临床场景下的诊断推理能力和可解释性。

  • 通过 DiReCT 评估当前 SOTA LLM 的诊断推理能力,并与人类医生进行比较,识别差距和挑战。

实际问题:

  • 现有医学问答数据集和评估方法多关注简单任务,无法全面评估 LLM 在复杂真实场景下的能力。

  • 临床诊断需要综合多种信息进行多步骤推理,现有 LLM 在长文本理解、多证据推理和可解释性方面存在不足。

科学假设:

通过构建一个包含详细诊断推理过程和诊断知识图谱的基准数据集,可以更全面地评估 LLM 的诊断推理能力,并揭示 LLM 与人类医生之间的差距。

相关研究:

  • 医学问答数据集: MedMCQA (Pal et al., 2022), ExplainCPE (Li et al., 2023), JAMA Challenge (Chen et al., 2024) 等。

  • 医学自然语言推理数据集: NLI4CT (Jullien et al., 2023)。

  • 医学文本摘要数据集: N2N2 (Gao et al., 2022)。

  • 临床诊断推理数据集: NEJM CPC (Zack et al., 2023), DR.BENCH (Gao et al., 2023b)。

  • 自然语言解释: [Camburu et al., 2018], [Rajani et al., 2019], [DeYoung et al., 2020], [Jhamtani and Clark, 2020], [Tafjord et al., 2021], [Dalvi et al., 2021], [Zhao et al., 2021], [Zhang et al., 2024] 等。

值得关注的研究员:

  • Yanjun Gao: 在医学自然语言处理领域发表了多篇重要论文,包括 N2N2、DR.BENCH 和 DiReCT 数据集。

  • Ankit Pal: MedMCQA 数据集的主要作者之一,专注于医学领域问答系统的研究。

  • Mael Jullien: NLI4CT 数据集的主要作者之一,研究方向包括医学自然语言推理和多跳推理。

2. 新思路、方法和模型

新思路:

  • 构建一个包含详细诊断推理过程注释的临床笔记数据集,包括观察结果、推理依据和最终诊断。

  • 提供一个诊断知识图谱,编码现有诊断指南中的诊断标准和推理路径,辅助模型理解和推理。

关键方法:

  • 数据集构建: 从 MIMIC-IV 数据库中选取包含 25 种疾病类别的 511 份临床笔记。

  • 数据标注: 由专业医生对每份临床笔记进行精细标注,包括:

    • 观察结果: 从临床笔记中提取支持特定诊断的文本片段。

    • 推理依据: 解释为什么观察结果支持该诊断,并与诊断知识图谱中的前提对应。

    • 最终诊断: 临床笔记的主要出院诊断。

  • 诊断知识图谱构建: 基于现有诊断指南,构建一个包含前提 (医学陈述) 和诊断节点的知识图谱,并定义两种边:

    • 支持边: 连接前提节点和诊断节点,表示前提是诊断的必要条件。

    • 流程边: 连接诊断节点,表示诊断流程。

模型特点和优势:

  • 更贴近真实临床场景: DiReCT 数据集包含完整的诊断推理过程,更能反映医生在实际工作中的思考方式。

  • 多证据推理: DiReCT 需要模型整合多个观察结果进行推理,更具挑战性。

  • 可解释性: DiReCT 的标注包含详细的推理依据,可以评估模型推理过程的可解释性。

  • 诊断知识图谱: 提供额外的诊断知识,辅助模型理解和推理。

3. 实验设计与结果分析

实验设计:

  • 基线模型: 设计一个基于 AI agent 的基线模型,利用诊断知识图谱将诊断任务分解为一系列子任务。

  • 评估模型: 使用 7 种不同规模和类型的 LLM,包括 LLama3, Zephyr, Mistral, Mixtral, GPT-3.5 和 GPT-4。

  • 任务设置:

    • 任务 1: 给定临床笔记和诊断流程图,预测最终诊断和推理解释。

    • 任务 2: 给定临床笔记和完整的诊断知识图谱,预测最终诊断和推理解释。

    • 任务 3: 仅给定临床笔记,预测最终诊断。

  • 评估指标:

    • 诊断准确率 (Accdiag)

    • 疾病类别准确率 (Acccat)

    • 观察结果完整度 (Obscomp)

    • 解释忠实度 (Faith)

    • 观察结果准确率 (Obspre)

    • 观察结果召回率 (Obsrec)

    • 解释完整度 (Expcom)

    • 解释覆盖率 (Expall)

实验数据和结果:

  • 表 3 展示了不同 LLM 在基线模型上的性能。GPT-4 在大多数指标上表现最佳,尤其是在观察结果和解释相关指标上。

  • 表 4 展示了在没有外部知识的情况下,LLM 的诊断推理能力。结果表明,缺乏外部知识会显著降低模型性能。

  • 图 5 展示了 LLama3 70B, GPT-3.5 和 GPT-4 在不同疾病类别上的性能。不同模型在不同疾病类别上的表现存在差异。

  • 表 5 展示了自动评估指标与人工评估的一致性。结果表明,自动评估指标与人工判断基本一致。

  • 图 6 展示了 GPT-4 在一个案例上的预测结果示例,模型正确识别了一些观察结果,但推理过程存在错误,导致最终诊断错误。

实验结果对科学假设的支持:

实验结果表明,即使是目前最先进的 LLM 在 DiReCT 数据集上的表现也远不如人类医生,特别是在观察结果提取、推理依据生成和跨领域泛化方面。这说明当前 LLM 缺乏对医学知识的深入理解和推理能力,需要进一步研究和改进。

关键数据:

  • 在任务 1 中,GPT-4 的诊断准确率为 77.2%,观察结果完整度为 49.1%,解释忠实度为 47.5%。

  • 在没有外部知识的情况下 (任务 3),GPT-4 的诊断准确率降至 7.4%。

  • 自动评估指标与人工评估的一致性在 80% 以上。

4. 论文贡献与业界影响

论文贡献:

  • 提出了一个新的医学诊断推理基准数据集 DiReCT,包含详细的诊断推理过程和诊断知识图谱。

  • 通过 DiReCT 评估了当前 SOTA LLM 的诊断推理能力,揭示了 LLM 与人类医生之间的显著差距。

  • 为医学领域 LLM 的评估和改进提供了新的方向。

业界影响:

  • 推动医学领域 LLM 的发展: DiReCT 为研究人员提供了一个更全面、更具挑战性的评估基准,可以促进更强大、更可解释的医学 LLM 的发展。

  • 提高医疗 AI 应用的可靠性: DiReCT 可以帮助评估和改进用于辅助诊断、医学文献检索等任务的 LLM 模型,提高医疗 AI 应用的可靠性。

潜在应用场景和商业机会:

  • 辅助诊断系统: 开发基于 LLM 的辅助诊断系统,帮助医生更快、更准确地诊断疾病。

  • 医学文献分析: 开发基于 LLM 的医学文献分析工具,帮助研究人员快速获取和理解最新的医学知识。

  • 患者教育: 开发基于 LLM 的患者教育工具,为患者提供个性化的疾病信息和治疗建议。

作为工程师,你应该关注:

  • 医学知识图谱的构建: 研究如何构建高质量的医学知识图谱,并将其与 LLM 有效地结合。

  • 多跳推理: 研究如何提高 LLM 的多跳推理能力,使其能够整合多个证据进行推理。

  • 可解释性: 研究如何提高 LLM 的可解释性,使其推理过程更加透明和可理解。

5. 未来研究方向和挑战

  • 更复杂的诊断场景: 将 DiReCT 扩展到更复杂的诊断场景,例如多疾病诊断、罕见病诊断等。

  • 多模态数据: 将 DiReCT 扩展到多模态数据,例如医学图像、实验室检查结果等。

  • 个性化: 开发针对不同疾病类别、不同患者群体的个性化 LLM 模型。

  • 实时应用: 探索 DiReCT 在实时临床环境中的应用,例如辅助医生进行实时诊断。

新的技术和投资机会:

  • 医学知识图谱构建工具: 开发用于构建和维护医学知识图谱的工具。

  • 多跳推理算法: 开发更高效、更准确的多跳推理算法,用于 LLM 模型。

  • 可解释性 AI 技术: 投资于可解释性 AI 技术的研发,提高 LLM 模型的透明度和可信度。

6. 论文的不足与缺失

  • 数据集规模: DiReCT 的规模相对较小,未来需要构建更大规模、更多样化的数据集。

  • 疾病类别覆盖: DiReCT 仅涵盖 25 种疾病类别,未来需要扩展到更多疾病类别。

  • 缺乏对模型不确定性的评估: DiReCT 没有评估模型对预测结果的置信度,未来可以考虑加入不确定性评估指标。

需要进一步验证和存疑的:

  • 诊断知识图谱的作用: 诊断知识图谱对模型性能的提升程度有多大?

  • 不同 LLM 架构的影响: 不同 LLM 架构 (例如 Transformer, RNN) 对诊断推理能力的影响?

  • 模型的鲁棒性: 模型对噪声数据、错误信息、罕见案例的鲁棒性如何?


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.