将大型语言模型植根于临床证据:一个用于查询英国NICE临床指南的检索增强生成系统


论文信息

  • 标题 (Title):Grounding Large Language Models in Clinical Evidence: A Retrieval-Augmented Generation System for Querying UK NICE Clinical Guidelines

  • 作者 (Authors):Matthew Lewis, Samuel Thio, Richard JB Dobson, Spiros Denaxas

  • 发表年份 (Year):2025

  • 原文链接 (URL)https://arxiv.org/abs/2510.02967v1

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):英国国家健康与临床优化研究所 (NICE) 的临床指南因其篇幅浩瀚、数量庞大,导致在时间紧张的医疗系统中难以被充分利用 。本研究旨在开发并评估一个检索增强生成 (Retrieval-Augmented Generation, RAG) 系统,使用户能通过自然语言查询,精准获取指南中的信息,以解决这一挑战

  • 方法 (Methods):研究构建了一个包含300份NICE指南、共计10,195个文本片段的知识库 。系统采用一个由稀疏和密集嵌入组成的混合检索架构,并对其性能进行了评估 。随后,该检索系统与多个大型语言模型 (LLMs) 集成 。研究在一个包含70个手动整理的问答对的数据集上,对RAG增强后的模型生成答案的质量进行了评估

  • 结果 (Results):检索系统表现出色,在7901次查询中,其平均倒数排名 (MRR) 为0.814,前10个检索结果的召回率 (Recall@10) 达到99.1% 。RAG系统在生成阶段的影响最为显著 。RAG增强后的O4-Mini模型在“忠实度”(Faithfulness,衡量答案是否被源文本支持)指标上,得分从基线的34.8%飙升至99.5%,提升了64.7个百分点 。这一表现远超未经RAG增强的医学专用模型Meditron3-8B(忠实度43%) 。所有RAG模型均取得了完美的上下文精度(Context Precision)得分(1.0),证明该系统能有效将答案植根于源材料,防止信息捏造

  • 结论 (Conclusion):本研究证实,RAG是一种有效、可靠且可扩展的方法,可将生成式AI应用于医疗保健领域,为访问复杂的医学指南提供了一种成本效益高的解决方案 。该系统通过成功缓解信息捏造的风险,为在临床信息环境中安全部署LLMs提供了有力支持

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:NICE临床指南是英国循证医学的基石,每年被浏览数百万次 。然而,这些指南往往非常冗长(有的超过百页),导致临床医生在繁忙的工作中难以快速查找所需信息,从而降低了其利用率 。大型语言模型 (LLM) 为此提供了新的解决方案,但其“幻觉”(即捏造信息)问题在对安全性要求极高的医疗领域构成了重大风险 。检索增强生成 (RAG) 框架通过将外部知识库与LLM结合,旨在解决这一核心痛点

  • 核心研究问题 (RQ):一个RAG系统能在多大程度上提升LLM在查询国家级大规模临床指南语料库时的性能,特别是在答案的质量和忠实度(即可靠性)方面?

  • 核心研究问题是否是一个新的问题? 是的,该研究定位为对一个全国性、大规模临床指南语料库进行的首次大规模生成式RAG系统评估 。尽管先前已有针对特定医学领域(如肿瘤学)的小规模RAG应用研究,但本项目填补了RAG在更广泛、国家级知识库上性能评估的空白

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究梳理

    • RAG在医疗领域的应用已显示出巨大潜力。例如,Zakka等人(2024)的系统将事实性提高了18% ;Ferber等人(2024)在肿瘤指南查询中将正确率从57%提升至84% ;Kresevic等人(2024)在丙型肝炎指南解读中将准确率从43%提升至99%

    • Ive等人(2025)开发了一个用于查询医院指南的非生成式系统,通过只从原文中提取文本来确保100%的可靠性,但其应用范围局限于少数几份小型文件

  • 研究缺口 (Gap):现有研究要么局限于狭窄的医学专业,要么是小规模的非生成式系统 。目前尚缺乏一个在广泛、国家级语料库上对生成式RAG系统性能的全面评估 。本文旨在通过在NICE指南上实施和评估RAG系统来填补这一空白

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标

    1. 从NICE指南中构建一个全面的知识库

    2. 评估包括稀疏、密集和混合搜索在内的多种检索策略,以确定最有效的方法

    3. 将检索系统与LLM集成,并通过提示工程确保答案植根于上下文

    4. 对完整的RAG系统进行严格的两阶段评估(检索和生成),并与基线LLM进行比较,以量化性能提升

  • 核心假设 (文中未明确列出,但可归纳如下):与独立的LLM相比,RAG架构能够显著提高答案的忠实度和整体质量,使其成为查询临床指南的一种安全可靠的工具。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究为定量 (Quantitative) 实验研究。

  • 方法论

    • 知识库构建:从NICE官方API获取300份全面的临床指南,将其从XML转换为Markdown格式,并采用分层语义分块方法处理成10,195个上下文完整、长度适中的文本块

    • 向量化:同时使用稀疏嵌入(Okapi BM25算法,擅长关键词匹配)和密集嵌入(如Voyage-3-Large模型,擅长语义理解)对文本块进行向量化

    • 检索与重排:实施混合搜索,使用加权倒数排名融合(Weighted Reciprocal Rank Fusion)技术结合稀疏和密集检索的优势 。之后,引入一个重排 (reranking) 阶段,使用计算成本更高但更精确的交叉编码器(cross-encoder)架构对初步检索到的结果进行重新排序,以提高精度

    • 生成:将检索并重排后的文本块作为上下文,与用户查询一起输入到LLM中(如O4-Mini、Claude Sonnet 4等) 。通过精密的提示工程 (Prompt Engineering),严格限制模型只能使用所提供的上下文生成答案,并规定了详细的输出格式

  • 解决方案之关键:整个RAG流程的协同作用是关键。这包括:(1)高质量、语义完整的文本分块;(2)结合关键词和语义的强大混合检索与重排机制;(3)严格的提示工程,强制LLM“戴着镣铐跳舞”,只能依据提供的证据作答,从而根除“幻觉”。

  • 与之前方法的特点和优势:本文的方法论具有系统性和全面性,它不仅在全国性的大规模语料库上进行了验证,还详细评估了从数据处理、多种检索策略到最终生成质量的每一个环节,为构建类似系统提供了一份详尽的蓝图。

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源:于2025年7月16日通过官方API获取的NICE完整指南库

  • 样本:研究聚焦于300份最全面的指南(NG和CG类型),这些指南的平均长度为9611个单词 。这些指南被处理成10,195个文本块,构成了系统的知识库 。评估数据集包括:(1)一个由7901个合成查询组成的用于测试检索性能的数据集 ;(2)一个由70个手动整理的问答对组成的用于评估生成质量的数据集

2.3. 操作化与测量 (Operationalization & Measurement)

  • 检索性能测量:使用平均倒数排名 (MRR)前k个结果的召回率 (Recall@k)中位数排名 (Median Rank) 等指标来量化检索系统的有效性

  • 生成性能测量:采用专门的RAGAS评估框架,该框架利用LLM来评判生成答案的质量 。核心指标包括:

    • 上下文精度 (Context Precision):衡量检索到的上下文中相关块的比例

    • 上下文召回率 (Context Recall):衡量相关信息被成功检索出的比例

    • 忠实度 (Faithfulness):验证答案中的声明是否能从提供的上下文中推断出来,这是衡量“幻觉”的关键指标

    • 响应相关性 (Response Relevancy):验证答案是否恰当地回应了问题

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

研究结果清晰地表明,RAG架构是确保LLM在临床问答中安全可靠的关键。在检索阶段,结合了语义和关键词的混合搜索及重排策略表现最佳。在生成阶段,RAG系统几乎完全消除了信息捏造(幻觉),其答案的忠实度远超未使用RAG的基线模型,包括那些专为医疗领域设计的模型。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 表 9: 检索性能结果

    • 内容解读:该表对比了多种嵌入模型(如Voyage-3-Large)、传统方法(BM25)以及混合搜索策略的检索性能。

    • 揭示的关系:密集嵌入模型(如Voyage-3-Large的MRR为0.826)显著优于稀疏的BM25模型(MRR为0.625) 。结合Voyage-3-Large、BM25和Voyage Reranker-2的混合策略达到了最佳的Recall@1(81%)和Recall@10(99.1%) 。这表明,对于近乎所有的查询,正确的答案源文本都能在前10个检索结果中找到。

  • 表 10: 生成(完成)性能结果

    • 内容解读:该表是本研究的核心,它对比了7个未接入RAG的基线LLM和6个接入RAG的LLM在70个问答对上的表现。

    • 揭示的关系

      • 忠实度(Faithfulness):这是最惊人的对比。未使用RAG的O4-Mini模型忠实度仅为0.348,而接入RAG后飙升至0.995 。即使是医学专用模型Meditron3-8B,其忠实度也仅有0.430 。这有力地证明,如果没有RAG提供的实时上下文,即便是顶尖的、领域专用的LLM在临床问答中也是不可靠的

      • 上下文精度(Context Precision):所有RAG模型在该项得分均为1.0,说明检索系统传递给LLM的上下文是高度相关的

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 结果的意义:本研究提供了一个可靠且可扩展的解决方案,以解决临床指南利用率不足的问题 。系统能在数秒内提供精确、有据可依的答案,直接应对了临床医生手动搜索耗时过长的痛点

  • 对研究问题的回答:研究结果明确回答了引言中的核心问题。RAG架构极大地提升了LLM的性能,特别是通过将答案植根于证据,将“忠实度”从不可接受的低水平提升至近乎完美,从而显著降低了“幻觉”风险

4.2. 理论贡献 (Theoretical Contributions)

  • 大规模验证:这是首次在国家级临床指南语料库上对生成式RAG系统进行的大规模评估,证实了小规模研究的发现,并为在更广泛的临床环境中安全应用生成式AI提供了强有力的证据

  • 方法论贡献:本文提供了一套完整的、可复现的流程,涵盖了从数据处理、混合检索到安全生成评估的各个环节,为未来的相关研究树立了标杆。

4.3. 实践启示 (Practical Implications)

  • 提高医疗效率:该系统有潜力成为临床医生的得力助手,大幅缩短查阅指南的时间,支持循证医学的实践

  • 成本效益高:系统部署成本低廉(使用最高性能模型组合每次查询约$0.009),且知识库更新无需对整个模型进行重新训练,具有很强的可维护性和经济可行性

  • 可扩展性强:该架构可以轻松扩展至NICE的所有指南,甚至可以整合其他机构或国际的指南

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性

    1. 评估数据的局限:评估使用的查询是合成生成的,可能无法完全反映真实世界临床问题的复杂性

    2. 自动化评估框架的不足:RAGAS框架在评估时存在误判,例如因无法正确理解源文本的格式而错误地惩罚了忠实度得分,这凸显了人工评估的必要性

    3. 查询范围有限:测试主要针对能从单一指南中找到答案的问题,未评估需要综合多个来源信息的复杂查询

  • 未来研究

    1. 与医疗专业人员合作进行真实世界可用性测试

    2. 探索使用和微调开源模型,以提高系统透明度并解决数据隐私问题(通过本地部署)

    3. 加强对需要从多个来源综合信息的复杂查询的测试

5. 结论 (Conclusion)

本项目成功开发并评估了一个旨在提升英国NICE临床指南可访问性的RAG系统 。评估结果证实了该系统在检索和生成两个阶段均表现出色 。最关键的贡献在于,RAG方法极大地提升了LLM输出的可靠性,忠实度得分高达99.5%,而上下文精度为100%,有效证明了其将答案严格植根于源材料、防止信息捏造的能力 。这项研究验证了RAG是临床信息领域部署LLM的一种稳健、可扩展且安全的策略,为负责任地将生成式AI融入医疗保健迈出了重要一步

6. 核心参考文献 (Core References)

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks.

    • 重要性:该文献首次提出了RAG框架,是整个研究的理论基础

  2. Es, S., et al. (2024). Ragas: Automated evaluation of retrieval augmented generation.

    • 重要性:该文献提出了RAGAS评估框架,是本研究评估生成质量所使用的核心工具

  3. Ferber, D., et al. (2024). Gpt-4 for information retrieval and comparison of medical oncology guidelines.

    • 重要性:作为相关工作被引用,证明了RAG在特定医学领域(肿瘤学)的有效性,为本研究进行更大规模的验证提供了背景

  4. Kresevic, S., et al. (2024). Optimization of hepatological clinical guidelines interpretation by large language models: a retrieval augmented generation-based framework.

    • 重要性:同样是重要的相关工作,展示了RAG在另一特定领域(肝病学)的成功应用,支持了RAG在医疗领域推广的潜力


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: