VeriFact:使用电子健康记录验证 LLM 生成的临床文本中的事实

在临床医学中,缺乏确保大型语言模型 (LLM) 生成文本的事实准确性的方法。VeriFact 是一个人工智能系统,它结合了检索增强生成技术和 LLM-as-a-Judge 方法,旨在验证大型语言模型(LLM)生成的文本,是否基于患者的电子健康记录 (EHR) 中的医疗病史,在事实上得到支持。为了评估该系统,我们引入了 VeriFact-BHC,这是一个新的数据集,该数据集将出院总结中的简要住院过程叙述分解为一系列简单的陈述,并由临床医生进行注释,以标明每个陈述是否得到患者 EHR 临床记录的支持。尽管临床医生之间的最高一致性为 88.5%,但与经过去噪和仲裁的平均人类临床医生的黄金标准相比,VeriFact 的一致性高达 92.7%。这表明,VeriFact 在根据患者病历对文本进行事实核查的能力上,超越了普通临床医生。VeriFact 可能会通过消除当前的评估瓶颈来加速基于 LLM 的 EHR 应用的开发。

1. 论文的研究目标与问题

这篇论文题为 "VeriFact: Verifying Facts in LLM-Generated Clinical Text with Electronic Health Records",顾名思义,其核心研究目标是解决大型语言模型 (LLM) 在临床医学领域生成文本的事实准确性问题

1.1 想要解决的实际问题

在医疗领域,电子病历 (EHR) 已经成为记录和管理患者信息的重要工具。随着人工智能技术的发展,LLM 在医疗领域的应用潜力巨大,例如病历摘要、风险预测、辅助诊断、患者医嘱翻译等。然而,LLM 生成的文本可能存在事实性错误或幻觉 (hallucination),这在医疗场景中是不可接受的,因为虚假信息可能直接影响患者安全和治疗效果。

论文指出,目前评估 LLM 在医疗领域应用的方法主要集中在医学问答基准测试上,而针对真实患者数据和长文本生成(如临床 notes)的评估研究相对较少。临床 notes 等长文本在医疗实践中非常普遍,但仅靠医生的人工 vigilance 难以保证 LLM 生成文本的事实准确性,尤其是在海量信息中识别细微错误和幻觉极具挑战性。

Long-form text such as clinical notes are pervasive in medical practice, but it is impossible for clinician vigilance alone to ensure factuality of LLM-generated text given the needle-in-a-haystack challenge of identifying subtle errors and hallucinations[13, 14].

因此,论文旨在填补这一空白,开发一种能够自动验证 LLM 生成的临床文本是否与患者 EHR 事实相符的 AI 系统,从而提高 LLM 在临床应用中的可靠性。

1.2 是否是新的问题?

事实核查 (fact-checking) 并非全新的概念,在通用领域已经有较多研究。然而,将事实核查应用于医疗领域,尤其是针对患者特定 EHR 的临床文本进行验证,并针对 LLM 生成的文本进行评估,是这篇文章的主要创新点之一。

论文明确指出,VeriFact 专注于针对患者特定 EHR 的事实核查,而非通用领域的事实核查。这突出了其在医疗场景下的特殊性和应用价值。

VeriFact focuses on fact-checking against patient-specific EHRs as opposed to general domain fact-checking[18-22].

1.3 科学假设

这篇文章要验证的科学假设是:通过结合检索增强生成 (RAG) 和 LLM-as-a-Judge 技术,可以构建一个 AI 系统 (VeriFact),其事实核查能力能够达到甚至超过人类临床医生的平均水平。

更具体来说,论文假设:

  • 将长文本分解为更小的、可验证的命题 (proposition) 可以提高评估的精细度和准确性。

  • 利用患者 EHR 作为参考知识库,动态检索与待验证命题相关的证据,可以模拟医生查阅病历的过程。

  • 使用 LLM-as-a-Judge 模拟医生的判断,可以自动评估命题是否与 EHR 证据相符。

1.4 相关研究及归类

论文将 VeriFact 归类为 AI 评估系统 (AI evaluation system),并明确指出其结合了 检索增强生成 (RAG) 和 LLM-as-a-Judge 技术。

相关研究领域包括:

  • LLM 在医疗领域的应用: 病历摘要、风险预测、辅助诊断、医嘱翻译等。

  • LLM 评估方法: 医学问答基准测试、真实患者数据评估、长文本生成评估。

  • 事实核查 (Fact-checking): 通用领域事实核查、领域特定事实核查(特别是医疗领域)。

  • 检索增强生成 (RAG): 利用外部知识库增强 LLM 生成能力。

  • LLM-as-a-Judge: 利用 LLM 评估其他 LLM 或人类生成的内容。

可以归类到以下研究方向:

  • 自然语言处理 (NLP)

  • 医学信息学 (Medical Informatics)

  • 人工智能 (AI)

  • 信息检索 (Information Retrieval)

  • 知识图谱 (Knowledge Graph)

1.5 值得关注的研究员

论文的作者团队来自斯坦福大学医学中心和生物医学数据科学系等机构,Nima Aghaeepour 和 Nigam Shah 是通讯作者,也是值得关注的研究员。他们所在的研究团队在医疗人工智能、生物医学数据科学等领域有深厚的积累。

此外,在相关研究领域,以下研究员及其团队也值得关注:

  • 在 LLM 医疗应用方面: 如 Google Health, Microsoft Research 等机构的相关团队。

  • 在事实核查和 LLM 评估方面: 如 Wei J, Min S, Durrett G 等作者在参考文献中提到的研究员。

  • 在 RAG 和 LLM-as-a-Judge 方面: 如 Lewis P, Zheng L, Guan J 等作者在参考文献中提到的研究员。

2. 论文提出的新思路、方法和模型

论文的核心创新在于提出了 VeriFact 系统,这是一个结合检索增强生成 (RAG) 和 LLM-as-a-Judge 的 AI 系统,用于验证 LLM 生成的临床文本的事实准确性。

2.1 解决方案之关键

VeriFact 解决方案的关键在于以下几个方面:

  1. 命题分解 (Proposition Decomposition): 将长文本(如 Brief Hospital Course narrative)分解为一系列更小的、更易于验证的命题 (propositions)。论文探索了两种分解方式:完整句子 (sentence propositions) 和 原子声明 (atomic claim propositions)原子声明倾向于提取文本中的 Subject-Object-Predicate 关系,更接近形式逻辑命题,也更便于机器处理。

    VeriFact adopts concepts from Bertrand Russell's logical atomism [25, 26] and first-order predicate logic by breaking down candidate input text for evaluation into a set of logical proposition statements that can be individually verified (Figure 1).

  2. EHR 事实提取 (EHR Fact Extraction): 将患者的 EHR 文档也分解为一系列事实 (facts),同样采用句子或原子声明的形式。这些事实被存储在向量数据库 (vector database) 中,作为参考知识库。

    All documents in a patient's EHR also undergo the same extraction, but we refer to sentences and atomic claims derived from the EHR as facts because they represent known truths about the patient. Facts are stored in a vector database and collectively form the basis of reference knowledge used to verify any proposition asserted about the patient.

  3. 动态参考上下文构建 (Dynamic Reference Context Construction): 对于每个待验证的命题,VeriFact 从向量数据库中动态检索最相关的 EHR 事实,构建一个参考上下文 (reference context)。这个参考上下文包含了与该命题相关的 EHR 证据,以及来源 note 的元数据(note 类型、作者、时间和日期)。

    Each proposition being evaluated is paired with a dynamically constructed reference context, created by retrieving a subset of relevant facts from the EHR vector database.

  4. LLM-as-a-Judge 评估 (LLM-as-a-Judge Evaluation): 使用 LLM-as-a-Judge 模型,将待验证的命题和其对应的参考上下文输入 LLM,让 LLM 判断该命题是否被参考上下文所支持 (Supported)、不支持 (Not Supported) 或未提及 (Not Addressed)。LLM-as-a-Judge 模拟了医生查阅病历并进行判断的过程。

    An LLM-as-a-Judge is then used to evaluate the proposition with respect to the reference context to determine a verdict-whether each proposition is Supported, Not Supported, or Not Addressed by the patient's EHR[16].

  5. 开源模型和透明度 (Open-Source Models and Transparency): VeriFact 系统完全基于开源的通用领域模型构建,如 Llama 3.1 70B, BGE-M3 等,没有进行特定领域的微调。这提高了系统的透明度、可复现性和可部署性

    Experiments are conducted using only open-source foundation models to maximize transparency and reproducibility, but similar foundation models can be substituted.

2.2 与之前方法的特点和优势

与之前的方法相比,VeriFact 具有以下特点和优势:

  • 针对临床长文本和患者 EHR: 更贴近真实的临床场景,解决了现有评估方法的局限性。

  • 细粒度评估: 通过命题分解,实现了对长文本的细粒度评估,能够更精确地定位事实性错误。

  • 动态参考上下文: 根据每个命题动态构建参考上下文,提高了评估的针对性和效率,模拟了医生查阅病历的真实过程。

  • 自动化和可扩展性: 基于 AI 技术,实现了事实核查的自动化和可扩展性,可以有效缓解人工评估的瓶颈。

  • 透明度和可复现性: 基于开源模型和数据集,提高了系统的透明度和可复现性,方便研究人员和医疗机构使用和改进。

  • 超越平均医生水平: 实验结果表明,VeriFact 的事实核查能力甚至超过了人类临床医生的平均水平。

总之,VeriFact 提供了一种更有效、更可靠、更透明的 LLM 临床文本事实核查方案,为 LLM 在医疗领域的安全应用奠定了基础。

3. 论文的实验验证

为了验证 VeriFact 系统的有效性,论文进行了以下实验:

3.1 实验设计

  1. 数据集:VeriFact-BHC

    论文构建了一个新的数据集 VeriFact-BHC,用于评估事实核查性能。该数据集包含来自 MIMIC-III 临床数据库 的 100 名患者的 Brief Hospital Course (BHC) 叙述,包括人工撰写 (human-written) 和 LLM 生成 (LLM-written) 两种类型。每个 BHC 叙述都被分解为 13,290 个命题 (propositions),并由多位临床医生标注了每个命题是否 Supported, Not Supported, 或 Not Addressed。最终通过多数投票和仲裁,获得了人工金标准 (human clinician ground truth) 标签。

    VeriFact-BHC contains 13,290 statements from the Brief Hospital Course (BHC) narratives of 100 patients... Each statement is annotated by multiple human clinicians as Supported, Not Supported, or Not Addressed by the patient's EHR. A final denoised human clinician ground truth set of labels is obtained via majority voting and adjudication.

  2. 实验设置

    • 输入文本类型: (1) 人工撰写 BHC (2) LLM 生成 BHC

    • 命题类型: (1) 原子声明 (atomic claim) (2) 句子 (sentence)

    • VeriFact 系统配置: 论文探索了多种 VeriFact 系统配置,包括不同的 检索方法 (Retrieval Method)检索事实数量 (Top N)参考上下文格式 (Reference Context Format), 以及是否 限制检索范围为当前住院记录 (Retrieve Facts Only From Current Admission)

  3. 评估指标

    • 准确率 (Agreement Percentage): VeriFact 预测结果与人工金标准标签的一致性百分比。

    • Gwet's AC1: 一种用于衡量评分者间一致性的指标,对类别不平衡问题不敏感。

    • 灵敏度 (Sensitivity), 特异性 (Specificity), 阳性预测值 (PPV), 阴性预测值 (NPV): 用于更细致地评估 VeriFact 在不同类别上的性能。

3.2 实验数据和结果

论文的主要实验结果表明:

  1. VeriFact 性能接近甚至超过人类医生水平: 在 LLM 生成的摘要上,VeriFact 最高可达到 92.7% 的准确率,与人类医生之间的最高一致性 88.5% 相比,甚至略有超出。

    Whereas highest agreement between clinicians was 88.5%, VeriFact achieves up to 92.7% agreement when compared to a denoised and adjudicated average human clinician ground truth, suggesting that VeriFact exceeds the average clinician's ability to fact-check text against a patient's medical record.

  2. 不同系统配置的影响: 检索事实数量 (Top N) 是影响 VeriFact 性能的最重要超参数,增加检索事实数量可以显著提高准确率。更高级的混合检索 (Hybrid Retrieval) 和 重排序 (Rerank) 方法 比简单的密集检索 (Dense Retrieval) 效果更好。

    The most important hyperparameter was the number of facts retrieved. Figure 5 shows that increased fact retrieval leads to label assignment changes that are better aligned with the ground truth labels. The best VeriFact systems used hybrid retrieval with a re-ranker model to retrieve 50 facts from across the patient's entire EHR with either Absolute Time or Relevance Score reference context formats.

  3. 原子声明 vs. 句子命题: 在 LLM 生成的摘要上,句子命题 (sentence propositions) 的性能略高于原子声明 (atomic claim propositions),最高准确率分别为 92.7% 和 88.8%。 但在人工撰写的摘要上,原子声明表现更稳定。

    we find that sentence propositions achieve better performance at 92.7% agreement compared to atomic claim propositions at 88.8% agreement with LLM-written summaries.

  4. 信息不对称的影响: VeriFact 在验证人工撰写的摘要时,准确率有所下降,这可能是因为人工撰写摘要的信息来源更广泛,包含了 EHR 之外的信息,导致 VeriFact 无法完全验证。

    Human-written BHC narratives illustrate the information asymmetry between text generator and evaluator. Our experiments show that VeriFact has lower agreement with the ground truth labels due to the majority of disagreement arising in how VeriFact assigns Not Supported and Not Addressed labels (Figure 5, Extended Data Table 3).

3.3 实验结果对科学假设的支持

实验结果有力地支持了论文提出的科学假设:

  • VeriFact 系统通过结合 RAG 和 LLM-as-a-Judge,实现了对 LLM 生成临床文本的有效事实核查。 高达 92.7% 的准确率证明了该方法的有效性。

  • 命题分解、EHR 检索和 LLM-as-a-Judge 协同工作,模拟了医生查阅病历并进行判断的过程,验证了设计思路的合理性。

  • VeriFact 的性能接近甚至超过人类医生水平,表明 AI 系统在特定任务上可以辅助甚至超越人类专家。

关键数据:

  • VeriFact 最高准确率: 92.7% (句子命题, LLM-written summary)

  • 人类医生最高一致性: 88.5%

  • Top N = 50 时 VeriFact 性能最佳 (Figure 5)

4. 论文的贡献与影响

4.1 论文的贡献

这篇论文的主要贡献在于:

  1. 提出了 VeriFact 系统: 一个基于 RAG 和 LLM-as-a-Judge 的、用于自动化验证 LLM 生成临床文本事实准确性的 AI 系统。

  2. 构建了 VeriFact-BHC 数据集: 一个包含人工标注的、用于评估 EHR 事实核查性能的新数据集,并公开可用,促进了该领域的研究。

  3. 验证了 VeriFact 系统的有效性: 实验结果表明,VeriFact 的事实核查能力接近甚至超过人类医生水平。

  4. 深入分析了影响 VeriFact 性能的关键因素: 如检索事实数量、检索方法、参考上下文格式等,为系统优化提供了指导。

  5. 强调了开源模型和透明度的重要性: VeriFact 完全基于开源模型构建,提高了系统的可复现性和可部署性。

4.2 论文的业界影响

VeriFact 的研究成果将对业界产生深远的影响:

  1. 加速 LLM 临床应用的落地: VeriFact 解决了 LLM 临床应用的关键瓶颈——事实准确性验证问题,为 LLM 在医疗领域的安全可靠应用铺平了道路。

  2. 提高医疗文本质量和患者安全: VeriFact 可以作为一种质量控制 (quality guardrail) 工具,用于审核和纠正 LLM 生成的临床文本,提高医疗文本的准确性和可靠性,最终提升患者安全。

  3. 降低人工审核成本,提升效率: 自动化事实核查系统可以大幅降低人工审核的工作量和成本,提高临床医生的工作效率,让他们可以将更多时间投入到直接的患者护理中。

  4. 推动 EHR 驱动的医疗 AI 应用发展: VeriFact 证明了利用 EHR 数据进行知识检索和事实验证的可行性和有效性,将促进更多 EHR 驱动的医疗 AI 应用的开发和应用。

4.3 潜在的应用场景和商业机会

VeriFact 具有广阔的应用场景和商业机会:

  1. 集成到 LLM 驱动的医疗软件中: 可以将 VeriFact 集成到各种 LLM 驱动的医疗软件中,如病历摘要生成、医嘱翻译、患者沟通助手等,作为事实核查模块,确保生成内容的准确性。

  2. 独立的质量控制工具: VeriFact 可以作为一个独立的质量控制工具,供医疗机构和研究人员审核和评估 LLM 生成的临床文本,例如在 LLM 系统部署前进行验证,或定期对系统输出进行质量监控。

  3. 数据标注和数据集构建: VeriFact-BHC 数据集的构建过程和标注方法,可以为其他研究人员提供参考,促进更多高质量医疗 AI 数据集的构建。

  4. 模型优化和算法改进: VeriFact 系统为 LLM 事实核查提供了评估平台,可以用于迭代优化 LLM 模型和核查算法,不断提升系统的性能。

4.4 工程师应该关注的方面

作为工程师,您应该关注以下方面:

  1. VeriFact 系统的技术细节: 深入了解 VeriFact 的系统架构、算法流程、模型选择、参数配置等技术细节,掌握其核心技术和实现方法。

  2. 开源模型和工具的应用: 关注论文中使用的开源模型(如 Llama 3.1, BGE-M3)和工具(如 vLLM, LlamaIndex, Qdrant, Outlines),学习如何在医疗场景下有效利用这些工具构建 AI 系统。

  3. EHR 数据处理和知识提取: 研究如何高效地处理 EHR 数据,从中提取结构化和非结构化信息,构建高质量的患者知识库,为事实核查提供可靠的数据基础。

  4. RAG 和 LLM-as-a-Judge 技术: 深入学习 RAG 和 LLM-as-a-Judge 的原理和应用,掌握如何有效地将外部知识融入 LLM,并利用 LLM 进行复杂任务的评估和判断。

  5. 医疗领域知识和伦理规范: 了解医疗领域的基本知识和伦理规范,在开发医疗 AI 系统时,要始终将患者安全和隐私放在首位,遵循医疗伦理准则。

5. 未来研究方向和挑战

未来在该研究方向上,还有许多值得进一步探索的问题和挑战:

  1. 更复杂的事实核查任务: VeriFact 目前主要关注简单的事实核查,未来可以探索更复杂的事实核查任务,如多文档证据聚合、因果关系推理、时间关系验证等。

  2. 处理 EHR 中的不确定性和噪声: EHR 数据本身可能存在错误、不完整或不一致的情况,如何鲁棒地处理 EHR 中的不确定性和噪声,提高事实核查的可靠性是一个挑战。

  3. 提升 LLM-as-a-Judge 的判断能力: 虽然 VeriFact 的性能已经接近人类医生水平,但 LLM-as-a-Judge 的判断能力仍有提升空间,例如通过微调 (fine-tuning) 或 提示工程 (prompt engineering) 进一步优化其性能。

  4. 探索更有效的知识检索和融合方法: 如何更高效、更精确地从 EHR 中检索相关事实,并将其有效地融入到 LLM 的评估过程中,是未来研究的重要方向。

  5. 评估 VeriFact 在真实临床环境中的应用效果: 目前的实验主要基于离线数据集,未来需要在真实的临床环境中评估 VeriFact 的应用效果,并进行实际应用验证。

  6. 解决信息不对称问题: 如何更好地处理人工撰写摘要中 EHR 之外的信息,提高 VeriFact 在信息不对称场景下的性能是一个挑战。

5.1 可能催生的新技术和投资机会

  • 更强大的医疗知识图谱: 构建更全面、更准确、更易于访问的医疗知识图谱,为事实核查和医疗 AI 应用提供更强大的知识支撑。

  • 更先进的 EHR 检索技术: 开发更高效、更智能的 EHR 信息检索技术,能够更准确地检索到与临床问题相关的 EHR 证据。

  • 更智能的 LLM-as-a-Judge 模型: 训练更专业的 LLM-as-a-Judge 模型,使其能够更好地理解和判断医疗文本的事实准确性。

  • 面向医疗领域的事实核查平台和服务: 构建面向医疗领域的事实核查平台和服务,为医疗机构和研究人员提供自动化的事实核查工具。

  • 基于 VeriFact 的 LLM 医疗软件产品: 开发集成 VeriFact 技术的 LLM 驱动的医疗软件产品,如智能病历摘要、辅助诊断、医嘱审核等。

6. 论文的不足及缺失 (Critical Thinking)

从 critical thinking 的视角来看,这篇论文也存在一些不足和缺失:

  1. 数据集的局限性: VeriFact-BHC 数据集虽然是新的,但仍然基于 MIMIC-III 数据库,该数据库主要来自 ICU 环境,可能不能完全代表所有临床场景。此外,MIMIC-III 数据集中的 EHR notes 存在 去标识化 (de-identification) 标记,可能会影响模型的理解和性能。

    The presence of de-identification tokens in the MIMIC-III text did obscure meaning and resulted in some poorly-extracted claims and erroneous label assignments; these de-identification tokens do not exist in real-world EHRS.

  2. 评估任务的简化: 论文将事实核查任务简化为 三分类问题 (Supported, Not Supported, Not Addressed),虽然具有临床实用性,但可能过于简化了真实世界中事实核查的复杂性。例如,对于部分支持或存在细微偏差的情况,可能难以准确归类。

  3. LLM-as-a-Judge 的黑盒性: 虽然论文使用了 LLM-as-a-Judge 技术,但 LLM 的决策过程仍然是一个黑盒,缺乏透明性和可解释性。虽然 VeriFact 可以生成 verdict 解释,但这些解释的可靠性和完整性仍需进一步验证。

  4. 信息不对称场景的挑战: VeriFact 在处理人工撰写摘要时,性能有所下降,表明其在信息不对称场景下的鲁棒性仍有待提高。真实世界中,临床医生可能掌握 EHR 之外的信息,如何处理这种信息不对称是未来需要解决的问题。

  5. 伦理和责任问题: 如果 VeriFact 系统判断错误,可能导致误导或延误治疗,如何界定系统的责任,以及如何建立有效的纠错和反馈机制,是伦理和法律层面需要考虑的问题。

需要进一步验证和存疑的点:

  • VeriFact 在其他医疗数据集和临床场景下的泛化能力: 需要验证 VeriFact 在不同数据集和临床场景下的性能,评估其泛化能力和鲁棒性。

  • LLM-as-a-Judge 解释的可靠性: 需要更深入地评估 LLM-as-a-Judge 生成的解释是否可靠、完整和易于理解。

  • VeriFact 在实际临床应用中的效果和安全性: 需要在真实临床环境中进行试点应用,评估 VeriFact 的实际效果和安全性,并收集用户反馈。

  • 不同领域和语言的适用性: VeriFact 目前主要针对英文 EHR 和 discharge summaries,需要验证其在其他语言和医疗领域的适用性。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: