论文信息
标题 (Title):Retrieval-Augmented Generation in Medicine: A Scoping Review of Technical Implementations, Clinical Applications, and Ethical Considerations 标题 (中文):检索增强生成在医学领域的应用:一项关于技术实现、临床应用和伦理考量的范围综述 作者 (Authors):Rui Yang, Matthew Yu Heng Wong, Huitao Li, Xin Li, et al. (Nan Liu as corresponding author) 发表年份 (Year):2025 (根据文中引用推断)
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):大型语言模型 (LLM) 在医学领域展现了巨大潜力,但其固有的局限性(如知识陈旧、易产生幻觉、无法访问私有数据)阻碍了其临床应用。检索增强生成 (RAG) 技术通过从外部知识源检索信息来增强LLM,被认为是解决这些问题的关键方案。本研究旨在通过范围综述的方法,系统性地梳理和描绘当前RAG在医学领域的研究现状,包括技术实现路径、临床应用模式、评估方法以及伦理挑战。 方法 (Methods):研究人员遵循 PRISMA-ScR 指南,在 PubMed、Embase、Web of Science 和 Scopus 四大数据库中系统性地检索了自2017年至2025年7月1日期间关于RAG在医学领域应用的研究。经过筛选,最终纳入251篇研究进行分析。研究团队从六个维度提取数据:1)元数据;2)外部检索数据(来源、类型、检索方法);3)生成模型(类型、是否开源);4)应用(医学专科、场景);5)评估(自动指标、人工评估);6)伦理考量(偏见、安全、低资源环境)。 结果 (Results):综述发现,当前医学RAG研究高度依赖公开数据(占80.35%),对电子健康记录等私有数据的利用有限。在技术实现上,密集检索 (Dense Retrieval) 是主流方法(占84.38%),但所用模型多为英语中心的通用模型。生成模型方面,专有闭源LLM (如GPT系列) 使用最广(占42.39%),而专门的医学LLM应用极少。临床应用主要集中在内科学的问答系统。评估方法上,虽然自动化和人工评估被广泛结合使用,但对偏见(仅7篇研究关注)、安全性(24篇)和低资源场景(6篇)的关注严重不足。 结论 (Conclusion):医学领域的RAG研究仍处于早期阶段。尽管在方法学上已奠定一定基础,但在临床验证、跨语言适应、私有数据整合和负责任应用方面存在巨大差距。未来的发展需要在确保技术可靠性的基础上,重点建立系统的可追溯性、透明度、公平性,并加强在真实临床环境中的验证,才能实现安全、可信且负责任的全球化应用。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
知识静态:模型训练数据截止于某个时间点,无法跟上最新的医学进展。 事实不可靠:容易产生“幻觉”,编造不存在的事实。 缺乏可解释性:“黑箱”特性使其决策过程难以追溯。 数据隔离:无法访问医院内部的、患者专属的电子病历(EHR)等私有数据。 偏见与公平性:可能固化和放大训练数据中的偏见,加剧医疗不平等。
RQ1: 当前在医学领域中,RAG系统的技术实现(数据源、检索方法、LLM选型)呈现出怎样的分布和趋势? RQ2: RAG技术主要被应用于哪些医学专科和临床场景? RQ3: 研究者们如何评估医学RAG系统的性能?对偏见、安全、公平等关键伦理问题的关注程度如何? RQ4: 基于当前的研究现状,医学RAG走向真实临床应用还面临哪些核心挑战和机遇?
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
系统性地梳理医学RAG研究的现状,绘制其技术实现和临床应用的图景。 评估当前研究在解决LLM局限性方面的潜力与不足。 识别和强调在RAG应用中出现的伦理挑战,特别是偏见、安全和全球健康公平性问题。 为医学RAG技术未来负责任的临床应用提出关键发展方向。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究采用定性与定量结合的文献分析范式。通过对大量文献进行系统性编码和分类,量化地呈现趋势(如84%的研究使用密集检索),并定性地分析这些趋势背后的原因和影响。 方法论:采用了范围综述 (Scoping Review) 的方法,并严格遵循 PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews) 指南。这是一种严谨的学术综述方法,旨在“绘制”某一研究领域的范围、关键概念、主要来源和知识差距。
广泛的检索:覆盖四大主流学术数据库,确保文献的全面性。 严谨的筛选:制定了明确的纳入和排除标准,并通过多名研究人员独立筛选来保证客观性。 结构化的数据提取:设计了一个包含6个维度的详细数据提取框架,使得对每篇论文的分析都是标准化的,从而能够进行有效的汇总和比较。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:PubMed, Embase, Web of Science, Scopus 四大学术数据库。 样本:经过系统检索和筛选,最终纳入分析的学术研究共 251篇。
2.3. 操作化与测量 (Operationalization & Measurement)
检索方法被分为三类:密集检索 (Dense)、稀疏检索 (Sparse)、混合检索 (Hybrid)。 LLM类型被分为三类:专有闭源 (Proprietary)、开源 (Open-weight)、两者结合 (Both)。 伦理考量被分为三个独立的二元变量:是否评估偏见 (Bias)、是否评估安全 (Safety)、是否应用于低资源场景 (Low-Resource Setting)。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
数据源:对公开数据依赖严重。80.35%的研究使用公开数据(如PubMed文摘、临床指南),仅15.72%的研究使用了私有数据(如EHR)。这限制了RAG在个性化医疗中的应用。 检索方法:密集检索占主导,但存在语言偏见。84.38%的研究采用基于向量的密集检索,但所用的嵌入模型大多基于英语语料库训练,对非英语医疗场景的适应性构成挑战,可能加剧全球健康不平等。 生成模型:通用模型为主,医学专用模型缺位。最常用的是闭源通用LLM(如GPT系列),占42.39%。专门针对医学领域优化的LLM(如Med-Gemini)因API未公开等原因,应用极少。 应用场景:集中于高风险问答,分布不均。应用最广的专科是内科学,最常见的任务是医疗问答。这类任务直接影响临床决策,风险较高。而文档生成、信息提取等风险较低的任务虽然也被探索,但不是主流。 评估与伦理:严重失衡,伦理考量被忽视。尽管约一半的研究采用自动化评估,三分之一的研究结合了人工评估,但对伦理维度的关注极度匮乏。在251项研究中,仅有7项明确评估了偏见,24项处理了安全问题(如幻觉检测),6项关注了低资源环境的应用。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
展示内容:该图通过三组条形图,直观地展示了在251项研究中,RAG三大核心技术组件的分布情况。 揭示关系:此图清晰地揭示了当前医学RAG研究的技术范式:依赖公开数据,偏好密集检索,倾向于使用闭源通用LLM。每个组件的“长尾”部分(如私有数据、稀疏/混合检索、开源/医学专用LLM)代表了当前研究较少涉足的领域,也可能是未来的研究方向。 关键数据支撑:例如,检索方法中,密集检索(189篇)与稀疏(11篇)、混合(24篇)方法相比,形成了绝对优势。
展示内容:左图展示了评估方法的分布(自动化、人工、混合)。右图则展示了在所有251项研究中,有多少研究关注了偏见、安全和低资源环境。 揭示关系:右图最具警示意义。它通过对比总研究数量(背景中的251)和具体伦理议题的研究数量(7, 24, 6),形成巨大的视觉反差,极具说服力地证明了当前医学RAG研究在伦理和社会责任方面的巨大疏忽。这是本文最核心的发现之一。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
现状:医学RAG研究仍处于“实验室”阶段,技术验证多于临床实践。对公开、通用、英语数据的依赖,使其在走向个性化、多语言、公平的全球医疗应用时面临巨大障碍。 风险:当前研究热衷于高风险的问答应用,但在安全性和偏见评估上的缺失,为临床应用埋下了隐患。如果检索源不透明、生成内容未经验证,错误的医疗建议可能直接危害患者安全。 机遇:报告生成、文本摘要等低风险任务是RAG进入临床工作流的理想切入点。混合检索策略和对医学专用、多语言嵌入模型的研究是未来的重要技术突破方向。
4.2. 理论贡献 (Theoretical Contributions)
首个全面的医学RAG图景:本文首次系统性地绘制了医学RAG的研究全景,识别了主流技术路径和关键知识空白,为该领域的研究者提供了宝贵的“地图”和“指南”。 提出了负责任AI的评估框架:通过将偏见、安全、公平性等作为核心分析维度,本文将“负责任AI”的理念系统性地引入医学RAG的评估中,提升了该领域研究的伦理标准。 构建了未来发展的战略框架 (Figure 5):提出了推进医学RAG临床应用的三个战略方向:可靠性 (Reliability)、可信赖性 (Trustworthiness) 和 公平性 (Equity)。这个框架为未来的研究、开发和监管提供了清晰的、结构化的思路。
对AI开发者,指明了技术研发的蓝海,如开发医疗专用的多语言嵌入模型、探索处理隐私数据的技术方案、构建更全面的安全和偏见评估工具。 对医疗机构和临床医生,提供了审慎采用RAG技术的参考。他们应优先考虑低风险应用,并对供应商提供的系统提出关于数据来源、可追溯性和安全性的质询。 对政策制定者和监管机构,敲响了警钟,强调了为医学AI(特别是生成式AI)建立相应监管框架和伦理指南的紧迫性。
4.3. 实践启示 (Practical Implications)
分阶段部署:建议从风险较低的自动化文档任务开始,逐步过渡到辅助决策等高风险任务。 加强人工监督:在当前阶段,任何RAG系统的输出都必须经过临床专业人员的严格审核。 投资于数据和模型的多样性:为了实现全球健康公平,需要投入资源构建多语言的医疗知识库和训练模型,以克服当前的英语中心偏见。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性: 语言偏见:综述本身只纳入了英文文献,可能忽略了其他语言社区的研究成果。 发表渠道偏见:主要检索期刊数据库,可能遗漏了发表在顶级AI会议上的前沿研究。 时效性:AI领域发展迅速,检索截止日期之后的新研究无法被纳入。
未来研究: 针对本综述发现的所有空白点进行深入研究,特别是私有数据利用、跨语言RAG、伦理评估方法等。 进行严格的临床试验来验证RAG系统在真实世界中的有效性和安全性。 开发可追溯和透明的机制,让使用者能够审查RAG的检索来源和推理过程。
5. 结论 (Conclusion)
6. 核心参考文献 (Core References)
Gao, Y., Xiong, Y., Gao, X., et al. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. 一篇关于RAG技术的综合性技术综述,是理解本文技术背景的重要参考文献。
Lee, J., Yoon, W., Kim, S., et al. (2020). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. 代表了特定领域(生物医学)预训练模型的方向,是实现高质量医学RAG检索的关键技术之一。
Saab, K., Tu, T., Weng, W.-H., et al. (2024). Capabilities of Gemini models in medicine. 代表了通用大模型在医学领域应用的最新进展,是RAG系统中“生成”环节的核心技术。
Omiye, J.A., Lester, J.C., Spichak, S., et al. (2023). Large language models propagate race-based medicine. 一篇关于LLM中偏见问题的关键论文,凸显了本综述强调伦理考量的重要性。
Tricco, A.C., Lillie, E., Zarin, W., et al. (2018). PRISMA Extension for Scoping Reviews (PRISMA-ScR): Checklist and Explanation. 本综述所遵循的方法学指南,是理解其研究严谨性的基础。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.