Digital Health Insider

利用智能体 LLM (大型语言模型) 工作流程打造通俗易懂的患者友好型医疗报告

大型语言模型 (LLM) 的能力正在快速发展，其中一个潜在的应用场景是将正式的医疗报告转换为通俗易懂的患者友好型报告。目前，LLM 的输出通常需要由人工进行编辑和评估，以确保事实准确性和可理解性，上述应用场景也是如此。我们的目标是通过使用 Reflexion 框架提出一个智能体工作流程来最大程度地减少此步骤，该框架使用迭代自我反思来纠正 LLM 的输出。该流程在 16 份随机放射学报告上进行了测试，并与零样本提示方法进行了比较。在我们的多智能体方法中，查看 ICD-10 代码的验证时，报告的准确率为 94.94%，而零样本提示报告的准确率为 68.23%。此外，81.25% 的最终反思报告在准确性和可读性方面无需更正，而只有 25% 的零样本提示报告无需修改即可满足这些标准。这些结果表明，我们的方法提供了一种可行的方法，能够快速、高效、连贯地将临床发现传达给患者，同时保持医学准确性。代码库可在 http://github.com/malavikhasudarshan/Multi-Agent-Patient-Letter-Generation 查看。

. 研究目标与相关工作

研究目标:

开发一个能够生成患者友好型医疗报告的多智能体 LLM 系统。

利用 Reflexion 框架的迭代自省机制，最小化人工校对和验证的需求。

确保生成的患者友好型报告在保持医学准确性的同时，易于患者理解。

实际问题:

患者难以理解包含专业医学术语的医疗报告，例如放射科报告。

单纯使用 LLM 进行零样本生成，容易出现幻觉、信息不完整、语气不专业等问题。

需要一种能够自动生成高质量患者友好型报告的方法，以减轻医务人员负担，并提高患者参与度。

科学假设:

通过结合多智能体工作流程和 Reflexion 框架的迭代自省机制，可以生成既准确又易读的患者友好型医疗报告。

相关工作:

患者友好型医疗报告生成: [4, 7, 8, 9, 10, 11].

LLM 在医疗保健领域的应用: [5, 6, 23, 24, 25].

多智能体 LLM 系统: [12, 13].

Reflexion 框架: [14].

值得关注的研究员:

Nicholas Shinn: Google AI, Reflexion 框架的主要作者之一，研究方向包括强化学习和 LLM。

George Shih: Weill Cornell Medicine, 放射科医生，专注于利用 LLM 生成患者友好型放射科报告。

2. 新思路、方法和模型

新思路:

利用多智能体工作流程，将患者友好型报告生成任务分解为多个子任务，例如 ICD-10 代码提取、文本生成和报告评估。

使用 Reflexion 框架的 Alfworld 模块，通过迭代自省机制优化 LLM 生成的患者友好型报告。

关键方法:

ICD-10 代码提取: 使用 LLM 从原始医疗报告中提取 ICD-10 代码，并将其存储以便后续比较。

患者友好型报告生成: 使用 LLM 根据原始报告生成多个患者友好型报告 (例如 n=5)。

准确性评估: 将生成的患者友好型报告中的 ICD-10 代码与原始报告中的代码进行比较，并计算准确率。

可读性评估: 使用 Flesch-Kincaid Grade Level 评估生成的报告的可读性级别。

总体评分: 结合准确性和可读性评分，计算每个生成的报告的总体评分。

迭代自省: 使用 Reflexion 框架的 Alfworld 模块，根据总体评分对生成的报告进行迭代自省，并选择最优版本。

模型特点和优势:

自动化生成: 该系统可以自动生成患者友好型报告，无需人工干预。

高准确性: 通过迭代自省和 ICD-10 代码验证，确保生成的报告具有较高的医学准确性。

高可读性: 使用 Flesch-Kincaid Grade Level 评估和优化，确保生成的报告易于患者理解。

端到端集成: 该系统可以与 EHR 系统集成，方便患者直接访问生成的报告。

3. 实验设计与结果分析

实验设计:

数据集: 16 份随机选择的放射科报告，以及来自 SIIM FHIR 服务器的 5 份医疗报告。

LLM 模型: OpenAI GPT-4o (gpt-4o-2024-05-13).

对比方法: 零样本提示 (zero-shot prompting)。

评估指标: 准确性、可读性 (Flesch-Kincaid Grade Level) 和总体评分。

实验数据和结果:

图 4: 总结了多智能体系统和零样本提示方法的结果。

准确性: 多智能体系统的准确率为 94.94%，而零样本提示的准确率为 68.23%。

可读性: 多智能体系统生成的报告的平均可读性级别为 8.846，而零样本提示的平均可读性级别为 5.648。

总体评分: 多智能体系统的总体评分比零样本提示高 17.51%。

实验结果对科学假设的支持:

实验结果表明，多智能体系统生成的报告在准确性和可读性方面均优于零样本提示方法，支持了论文的科学假设。

关键数据:

ICD-10 代码准确率: 多智能体系统 94.94% vs. 零样本提示 68.23%。

平均 Flesch-Kincaid Grade Level: 多智能体系统 8.846 vs. 零样本提示 5.648。

总体评分提升: 多智能体系统 +17.51%。

4. 论文贡献与业界影响

论文贡献:

提出了一种基于多智能体工作流程和 Reflexion 框架的患者友好型医疗报告生成方法。

实证研究表明，该方法可以生成准确、易读的患者友好型报告，并显著减少人工校对需求。

业界影响:

提高患者参与度: 通俗易懂的医疗报告可以帮助患者更好地理解自身病情，提高患者参与度和治疗依从性。

减轻医务人员负担: 自动生成患者友好型报告可以减轻医务人员的负担，让他们专注于更重要的临床任务。

促进医疗信息透明化: 为患者提供清晰易懂的医疗信息，可以提高医疗信息透明度，增强患者对医疗服务的信任。

潜在应用场景和商业机会:

医疗机构: 将该系统集成到 EHR 系统中，为患者提供自动生成的患者友好型报告。

医疗 AI 公司: 开发基于该方法的商业化产品，为医疗机构提供患者友好型报告生成服务。

健康科技公司: 将该方法应用于其他类型的医疗信息，例如检查结果、治疗方案等，为患者提供更全面的健康信息服务。

作为工程师，你应该关注：

LLM 技术: 深入了解 LLM 的最新发展和应用，特别是针对医疗领域的 LLM 模型。

多智能体系统: 研究如何设计和优化多智能体工作流程，以更好地完成医疗任务。

可解释性 AI: 研究如何提高 LLM 的可解释性，使其推理过程更加透明和可理解。

5. 未来研究方向和挑战

扩展到其他医疗领域: 将该方法应用于其他类型的医疗报告，例如病理报告、心电图报告等。

支持多语言: 开发能够生成多种语言的患者友好型报告的系统。

个性化: 根据患者的年龄、文化背景和健康素养水平，生成个性化的患者友好型报告。

情感支持: 探索如何在患者友好型报告中融入情感支持，以减轻患者的焦虑和压力。

新的技术和投资机会：

针对医疗领域的 LLM 模型: 开发专门针对医疗领域训练的 LLM 模型，以提高生成报告的准确性和可读性。

多智能体系统开发框架: 开发用于构建和部署医疗多智能体系统的框架，以简化开发流程。

可解释性 AI 工具: 开发用于解释 LLM 模型推理过程的工具，以提高系统的透明度和可信度。

6. 论文的不足与缺失

数据集规模: 论文使用的放射科报告数据集规模较小，需要在更大规模的数据集上进行验证。

评估指标: 除了准确性和可读性，还需要考虑其他指标，例如患者满意度、对治疗决策的影响等。

缺乏与其他方法的比较: 论文没有与其他患者友好型报告生成方法进行直接比较，例如基于模板的方法。

需要进一步验证和存疑的：

模型的泛化能力: 该系统在处理不同类型、不同复杂程度的医疗报告时的表现如何？

模型的长期稳定性: 随着时间的推移，LLM 模型的性能是否会下降？

模型的安全性: 如何确保 LLM 模型不会生成误导性或有害的信息？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MALADE：基于检索增强生成和大型语言模型的药物警戒智能体协同系统

在大语言模型 (LLM) 时代，凭借其卓越的文本理解和生成能力，我们拥有前所未有的机会来开发新的、基于 LLM 的方法，以实现可信赖的医学知识综合、提取和总结。本文重点关注药物警戒 (PhV) 问题，其重要性和挑战在于从各种文本来源（例如医学文献、临床记录和药品标签）中识别药物不良事件 (ADE)。不幸的是，这项任务受到多种因素的阻碍，包括药物和结果术语的差异，以及 ADE 描述通常隐藏在大量叙述性文本中。我们提出了 MALADE，这是第一个使用检索增强生成 (Retrieval Augmented Generation) 技术的、基于 LLM 的有效协作多智能体系统，用于从药品标签数据中提取 ADE。该技术通过从文本资源中提取的相关信息增强对 LLM 的查询，并指示 LLM 生成与增强数据一致的响应。MALADE 是一种通用的、与 LLM 无关的架构，其独特的功能包括：(1) 利用各种外部来源，例如医学文献、药品标签和 FDA 工具（例如 OpenFDA 药物信息 API）；(2) 以结构化格式提取药物-结果关联及其关联强度；(3) 为已建立的关联提供解释。MALADE 使用 GPT-4 Turbo 或 GPT-4o 和 FDA 药品标签数据实例化，证明了其有效性，相对于 OMOP Ground Truth ADE 表的 ROC 曲线下面积为 0.90。我们的实现利用了 Langroid 多智能体 LLM 框架，可以在 https://github.com/jihyechoi77/malade 中找到。

1. 研究目标与相关工作

研究目标:

开发一个有效的多智能体系统，利用 LLM 和 RAG 技术从药物标签数据中提取 ADE 信息。

提高 ADE 提取的准确性、可靠性和可解释性。

实际问题:

药物警戒 (PhV) 依赖于从大量文本数据中识别 ADE，这是一项复杂且耗时的任务。

现有的基于 LLM 的 ADE 提取方法存在性能有限、推理不一致、缺乏可解释性等问题。

LLM 缺乏对特定数据源的访问，可能导致提取结果不准确或不完整。

科学假设:

通过将 ADE 提取任务分解为多个子任务，并利用 RAG 和智能体协作机制，可以提高 LLM 在 ADE 提取任务中的性能和可靠性。

相关工作:

药物警戒: Sentinel [25], OMOP [27], OHDSI [31], Huang et al. [10], von Csefalvay [37], Sorbello et al. [30], Sun et al. [32].

检索增强生成 (RAG): Lewis et al. [15].

多智能体系统: [43, 9, 34].

LLM 在医学领域的应用: [28, 29, 23, 33].

值得关注的研究员:

Patrick Lewis: Google Research, RAG 框架的提出者之一，研究方向包括信息检索和自然语言处理。

David Madigan: OMOP 的主要贡献者之一，专注于从观察性数据库中学习，特别是药物警戒。

Karan Singhal: Google Research, Med-PaLM 2 的主要作者之一，专注于医疗领域 LLM 的研究。

2. 新思路、方法和模型

新思路:

使用多个 LLM 智能体协同工作，每个智能体负责 ADE 提取任务中的一个特定子任务。

利用 RAG 为 LLM 提供最新的药物标签数据，并通过引用来源提高可解释性。

使用 "Agent-Critic" 交互模式来提高智能体响应的可靠性。

关键方法:

多智能体架构: MALADE 包括三个主要智能体:

DrugFinder: 从医学数据库中识别代表每个药物类别的药物。

DrugAgent: 从 FDA 药物标签数据库中收集有关特定药物对特定结果影响的信息。

CategoryAgent: 结合来自 DrugAgent 的药物级别信息，生成关于药物类别对结果影响的结构化报告。

检索增强生成 (RAG): DrugAgent 使用 RAG 从 FDA 药物标签数据库中检索相关信息，并使用这些信息生成答案和解释。

Agent-Critic 交互: 每个智能体都与一个 Critic 智能体配对，Critic 负责验证智能体的行为和响应，并提供反馈以改进智能体的输出。

模型特点和优势:

精确评估: MALADE 可以生成结构化的药物-结果关联报告，包括置信度评分、证据强度和效应频率，从而可以与 OMOP Ground Truth 表进行定量比较。

基于证据的生成: MALADE 利用 RAG 从外部来源检索证据，并提供对提取结果的解释，提高了系统的透明度和可信度。

可观察性: MALADE 记录了智能体之间的所有交互和中间步骤，方便调试和审计。

通用性: MALADE 的架构与 LLM 和数据源无关，可以应用于其他药物警戒任务和医学领域。

3. 实验设计与结果分析

实验设计:

数据集: 使用 FDA 药物标签数据和 MIMIC-IV 医学数据库。

基准任务: OMOP ADE 任务 [19]，评估模型识别药物类别与不良事件之间关联的能力。

LLM 模型: 使用 GPT-4 Turbo 和 GPT-4o 两种 LLM。

评估指标:

AUC (Area Under ROC Curve): 评估模型区分正负样本的能力。

F1 分数: 评估模型分类的准确性。

消融实验: 评估 Agent-Critic 交互和 RAG 对系统性能的影响。

实验数据和结果:

表 1: MALADE 在 OMOP ADE 任务上取得了良好的性能，使用 GPT-4o 的 AUC 达到 0.90。

表 2: 消融实验表明，Agent-Critic 交互和 RAG 都对系统性能有积极影响。

表 3: Critic 智能体对 DrugAgent 和 CategoryAgent 的响应进行了不同程度的修正，表明 Agent-Critic 交互可以提高系统可靠性。

实验结果对科学假设的支持:

实验结果表明，MALADE 的多智能体架构、RAG 和 Agent-Critic 交互机制可以有效提高 LLM 在 ADE 提取任务中的性能和可靠性，支持了论文的科学假设。

关键数据:

MALADE 使用 GPT-4o 的 ADE-based AUC 为 0.90，Effect-based AUC 为 0.883。

CategoryAgent 的响应被 Critic 修正的比例高达 44.52%。

4. 论文贡献与业界影响

论文贡献:

提出了 MALADE，第一个基于 LLM 和 RAG 的多智能体系统，用于从药物标签数据中提取 ADE。

在 OMOP ADE 任务上取得了最先进的性能。

通过 Agent-Critic 交互和 RAG 提高了系统的可靠性和可解释性。

业界影响:

加速药物警戒研究: MALADE 可以帮助研究人员更快、更准确地识别潜在的 ADE，从而加速药物警戒研究。

提高药物安全性: MALADE 可以帮助监管机构和制药公司更好地监测药物安全性，并在必要时采取措施保护公众健康。

推动多智能体系统在医疗领域的应用: MALADE 展示了多智能体系统在解决复杂医学问题方面的潜力，为未来研究提供了新的方向。

潜在应用场景和商业机会:

药物安全性监测: MALADE 可以用于监测药物上市后的安全性，识别潜在的 ADE 并提醒相关机构。

临床决策支持: MALADE 可以为医生提供有关药物潜在风险的信息，帮助他们做出更明智的处方决策。

药物研发: MALADE 可以帮助制药公司在药物研发过程中识别潜在的 ADE，从而降低开发风险。

作为工程师，你应该关注:

LLM 和 RAG 技术: 深入了解 LLM 和 RAG 技术，并研究如何将其应用于其他医疗领域。

多智能体系统: 研究如何设计和实现高效的多智能体系统，并探索其在医疗领域的应用潜力。

数据隐私和安全: 开发保护患者隐私和数据安全的解决方案，确保医疗 AI 系统的负责任使用。

5. 未来研究方向和挑战

扩展到其他数据源: 将 MALADE 扩展到其他数据源，例如电子健康记录 (EHR)、医学文献和社交媒体数据。

处理多语言数据: 开发能够处理多语言数据的版本，以扩展 MALADE 的适用范围。

改进模型的可解释性: 研究如何更清晰地解释 MALADE 的推理过程，增强用户对系统的信任。

实时监测: 开发实时监测 ADE 的版本，以便及时发现潜在的药物安全问题。

新的技术和投资机会:

医疗领域 LLM: 开发专门针对医疗领域训练的 LLM，以提高 ADE 提取的准确性和效率。

医学知识图谱: 构建高质量的医学知识图谱，为 LLM 提供更全面的背景知识。

可解释性 AI 工具: 开发可解释性 AI 工具，帮助用户理解 LLM 的推理过程。

6. 论文的不足与缺失

数据集局限性: MALADE 仅使用 FDA 药物标签数据，可能无法完全反映真实世界中 ADE 的情况。

模型评估: MALADE 的评估仅限于 OMOP ADE 任务，未来需要在更多样化的任务和数据集上进行评估。

缺乏与其他方法的比较: 论文没有与其他现有的 ADE 提取方法进行直接比较。

需要进一步验证和存疑的：

模型的泛化能力: MALADE 在处理未见过的药物和 ADE 时的表现如何？

模型的鲁棒性: MALADE 对噪声数据和错误信息的鲁棒性如何？

模型的效率: MALADE 的推理速度和资源消耗如何？

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.