Digital Health Insider: 从检索到生成：统一外部知识和参数化知识用于医学问答

论文信息

标题 (Title)：From Retrieval to Generation: Unifying External and Parametric Knowledge for Medical Question Answering

作者 (Authors)：Lei Li, Xiao Zhou, Yingying Zhang, Xian Wu

发表年份 (Year)：2025

原文链接 (URL)：https://arxiv.org/abs/2510.18297

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective)：医学问答 (Medical QA) 严重依赖专业知识。现有增强大语言模型 (LLM) 的方法主要分为两类：检索增强生成 (RAG)，依赖外部知识库，但常受限于检索内容的噪音和不完整性；生成增强生成 (GAG)，依赖模型内部的参数化知识生成上下文，但易产生幻觉和不准确信息。本研究旨在解决这两种方法的局限性，提出一个统一框架，无缝整合外部检索知识和内部参数化知识，以提升医学问答的准确性和可靠性。

方法 (Methods)：研究提出了一个名为 MEDRGAG 的统一检索-生成增强框架。该框架包含两个核心模块：

知识引导的上下文补全 (Knowledge-Guided Context Completion, KGCC)：该模块首先分析检索到的文档，识别出回答问题所缺失的关键知识点，然后引导生成器（一个LLM）针对性地生成补充性背景文档，填补这些知识空白。

知识感知的文档选择 (Knowledge-Aware Document Selection, KADS)：该模块将检索到的文档和新生成的文档汇集起来，根据问题所需的知识点对它们进行分组和筛选，最终自适应地选择出一个简洁、全面、无冗余的证据集合，供最终的“阅读器”LLM 生成答案。

结果 (Results)：在五个主流医学问答基准测试（如 MedQA, MedMCQA 等）上进行的大量实验表明，MEDRGAG 表现出色。与代表性的 RAG 方法 MedRAG 相比，平均准确率提升了 12.5%；与代表性的 GAG 方法 MedGENIE 相比，平均准确率提升了 4.5%。该框架在不同规模的阅读器模型（Qwen2.5-7B, LLaMA-3.1-8B, Ministral-8B）上均表现出稳定且显著的性能优势。

结论 (Conclusion)：该研究成功构建了一个能有效统一外部知识和内部知识的框架，显著提升了知识密集型医学问答的性能。其核心贡献在于通过“识别缺失-针对生成-智能筛选”的机制，克服了单一 RAG 或 GAG 范式的固有缺陷，为构建更可靠、更精准的医学 AI 系统提供了新的解决方案。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

在医学问答这个对事实准确性要求极高的领域，LLM 的“幻觉”问题是致命的。为了解决这一问题，知识增强生成应运而生，主要分为两种技术路线：

RAG (Retrieval-Augmented Generation)：先从医学文献库（如 PubMed）中检索相关段落，再让 LLM 基于这些证据回答。这种方法的优点是答案有据可查，透明度高。但缺点也很明显：(1) 检索到的文档可能是固定长度的文本块，包含大量噪音和无关信息；(2) 仅靠检索可能无法覆盖回答问题所需的全部知识，造成“知识鸿沟”。

GAG (Generation-Augmented Generation)：不依赖外部数据库，而是利用 LLM 自身强大的内部知识，先生成一些与问题相关的背景信息，再让 LLM 基于这些自生成的上下文进行回答。优点是生成的上下文与问题语义更贴合。但缺点是，由于缺乏外部事实约束，生成的上下文可能包含幻觉或错误信息，误导最终的回答。

因此，本文要回答的核心研究问题 (RQ) 是：

如何设计一个框架，能够动态地结合 RAG 的事实可靠性和 GAG 的上下文灵活性，既能利用外部知识源，又能通过可控的生成来弥补检索的不足，从而实现两种范式优势互补，克服各自的局限性？

这是一个在现有 RAG 和 GAG 基础上寻求融合与超越的新问题。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

作者梳理了 RAG 和 GAG 在医学领域的应用。

RAG 方面：MedRAG、i-MedRAG 等工作优化了检索源和检索策略，但仍未解决检索内容本身覆盖不全的根本问题。

GAG 方面：MedGENIE 等工作展示了生成多样化上下文的潜力，但无法保证生成内容的真实性。

融合方面：虽然有研究（如 GRG, COMBO）尝试简单地合并检索和生成的文档，但它们通常只是机械地拼接，没有解决知识冲突、冗余和筛选的问题。

本文所针对的“研究缺口” (Gap) 在于：现有工作缺乏一个智能的、协同的机制来统一检索和生成。它们要么是“非此即彼”，要么是“简单相加”。本文的创新点在于提出了一个“诊断式”的融合方法：先通过检索诊断出知识的缺失之处，然后针对性地生成补充内容，最后通过智能筛选将两者有机结合。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

研究目标：

设计并实现一个名为 MEDRGAG 的统一框架，用于医学问答，该框架能无缝集成外部检索知识和内部参数化知识。

通过该框架提升医学问答的准确性、鲁棒性和可靠性。

核心假设：

H1: 通过分析检索到的内容来识别“知识缺口”，并引导 LLM 针对性地生成补充信息（KGCC 模块），会比无引导地生成上下文（传统 GAG）更有效、更准确。

H2: 在融合检索和生成的文档时，采用一个基于知识需求进行自适应选择的策略（KADS 模块），会比简单地将所有文档拼接起来（简单融合）或依赖传统排序模型更高效，能更好地平衡信息完整性与噪声抑制。

H3: 结合了检索和生成的统一框架（MEDRGAG），其性能将优于任何单一依赖检索（RAG）或生成（GAG）的系统。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

本研究为定量研究，采用构建式研究方法。其核心是设计并实现了一个名为 MEDRGAG 的三阶段信息处理流水线，并通过在标准数据集上与基线模型的性能对比来验证其有效性。

论文中提到的解决方案之关键是什么？
关键在于两个精心设计的核心模块 KGCC 和 KADS，它们共同构成了一个“检索-分析-补全-筛选-阅读”的完整流程。

知识引导的上下文补全 (KGCC)：这是实现“有的放矢”生成的关键。它分为三步：

步骤1: 知识摘要 (Summarization)：用一个 LLM（Summarizer）读取每个检索到的文档，并只提取与问题相关的“有用知识点”，过滤掉噪音。如果文档无关，则标记为“无用信息”。

步骤2: 缺失探索 (Exploration)：用另一个 LLM（Explorer）分析上一步得到的“有用知识点”，并与问题本身进行对比，找出回答问题还“缺少”哪些关键信息，并生成缺失知识点的列表（例如，“NF2基因与肾细胞癌的具体关系”）。

步骤3: 背景生成 (Generation)：用一个生成器 LLM（Generator）根据上一步得到的“缺失知识点列表”，逐一生成补充性的背景文档。

知识感知的文档选择 (KADS)：这是实现“去粗取精”的关键。它同样分为三步，但通过一个精心设计的 Prompt 让一个 LLM（Integrator）一次性完成：

步骤1: 需求识别 (Requirement Identification)：分析问题，确定回答需要哪些核心知识点。

步骤2: 知识映射 (Knowledge-to-Document Mapping)：将所有候选文档（包括原始检索的和新生成的）与识别出的核心知识点进行匹配，进行归类。

步骤3: 平衡选择 (Balanced Evidence Selection)：从每个知识点类别中挑选最相关、信息量最足的文档，最终组合成一个覆盖全面且冗余最小的证据集（Top-5）。

跟之前的方法相比有什么特点和优势?

从“盲目”到“引导”：传统 GAG 是盲目生成，而 MEDRGAG 的生成是目标驱动的，只生成检索系统无法提供的那部分缺失知识，大大降低了幻觉风险，提高了生成内容的“信噪比”。

从“堆砌”到“精选”：传统融合方法是简单地把所有文档堆在一起，而 MEDRGAG 的 KADS 模块像一个专业的“文献综述助理”，它根据论点（知识需求）来组织和筛选论据（文档），确保提供给最终阅读器的材料是高度相关且结构化的。

协同而非竞争：该框架让检索和生成不再是相互竞争的两种方案，而是协同工作的伙伴。检索负责提供基础事实，生成负责填补逻辑链条和知识空白，实现了 1+1>2 的效果。

2.2. 数据来源与样本 (Data Source & Sample)

评测数据集 (Datasets)：研究在五个公开的医学问答数据集上进行评估，包括 MedQA-US, MedMCQA, MMLU-Med, PubMedQA*, BioASQ-Y/N。这些数据集涵盖了医学考试、生物医学文献等多种场景。

外部知识库 (Corpus)：用于检索的外部知识库由两部分构成：(1) 医学教科书 (Medical Textbooks)；(2) 英文维基百科 (Wikipedia articles)。

模型：整个框架使用了多个 LLM 扮演不同角色：

Retriever: BM25 (经典的稀疏检索模型)。

Generator: LLaMA-3.1-8B-Instruct。

Summarizer, Explorer, Integrator: GPT-4o-mini (因其强大的指令遵循和推理能力)。

Reader: 实验了三种不同模型以验证框架的通用性，包括 Qwen2.5-7B-Instruct, LLaMA-3.1-8B-Instruct, 和 Ministral-8B-Instruct。

2.3. 操作化与测量 (Operationalization & Measurement)

关键变量操作化：

外部知识 (External Knowledge)：通过 BM25 从医学教科书和维基百科中检索出的 Top-k 文档。

参数化知识 (Parametric Knowledge)：通过 LLaMA-3.1-8B-Instruct 模型根据 KGCC 模块的指令生成的一系列补充文档。

最终证据集 (Final Evidence Set)：由 KADS 模块从上述两类文档中筛选出的 Top-5 文档。

测量指标：所有实验均采用准确率 (Accuracy) 作为核心评估指标，衡量模型在多项选择题中选出正确答案的能力。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

统一框架的绝对优势：MEDRGAG 在所有五个数据集和三种阅读器模型上，其平均准确率均显著高于所有基线方法，包括直接回答、纯 RAG 方法和纯 GAG 方法（见表1），验证了核心假设 H3。

超越先进的 RAG 和 GAG：相较于 MedRAG（先进RAG），MEDRGAG 平均提升 12.5%，说明仅靠检索确实存在知识覆盖不足的问题。相较于 MedGENIE（先进GAG），MEDRGAG 平均提升 4.5%，说明引入可信的检索证据能有效抑制生成内容的幻觉，提升准确性。

核心模块不可或缺：消融实验（表3）证明，去掉框架中的任何一个核心环节（如生成、检索、KGCC、KADS）都会导致性能显著下降。特别是，去掉生成模块比去掉检索模块性能下降更严重，这表明由模型生成的、与问题高度相关的上下文，在提升推理能力方面扮演了更关键的角色。

模型规模效应显著：性能分析（图3）显示，使用更大、能力更强的模型作为生成器或辅助模块（如 Summarizer, Explorer），能带来更显著的性能提升，表明 MEDRGAG 的效果与其组件模型的能力正相关。

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

表1：主要实验结果 (Main experiment results)

展示内容：该表格详细列出了 MEDRGAG 与多种基线方法在五个数据集和三种不同阅读器下的准确率。

揭示关系：无论在哪种设置下，MEDRGAG (最后一行) 的得分几乎总是最高的 (加粗显示)。例如，在使用 Qwen2.5-7B 作为阅读器时，MEDRGAG 的平均准确率达到 71.14%，远超 MedRAG 的 62.35% 和 MedGENIE 的 67.79%。

关键数据支撑：这些全面的对比数据是证明 MEDRGAG 框架整体有效性的最直接、最核心的证据。

图2：MEDRGAG 框架流程图 (Framework of MEDRGAG)

展示内容：该图以一个具体的医学案例（NF2基因突变）清晰地展示了 MEDRGAG 的三阶段工作流程。

揭示关系：从“检索到初步文档” -> “通过 Summarizer 和 Explorer 发现缺失知识（如肿瘤患病率、与其他疾病的关联）” -> “Generator 生成补充文档” -> “Integrator 筛选出最佳组合”，完整地可视化了论文的核心方法论。这个图是理解其内部工作机制的关键。

表4 & 表5：案例研究 (Case Study)

展示内容：通过一个真实的医学问答案例，具体展示了检索到的文档、生成的文档以及最终被选中的文档内容。

揭示关系：案例清晰地表明，检索文档（Retrieved Doc 2）只提到了 NF2 与“脑膜瘤 (meningiomas)”有关，但信息不充分。而生成文档（Generated Doc 2）则明确排除了干扰项“肾细胞癌 (renal cell carcinoma)”，因为它指出肾细胞癌与 VHL 综合征相关，而非 NF2。

关键数据支撑：这个案例生动地证明了 MEDRGAG 的核心优势：生成的内容可以提供排除性证据和更深层次的解释，这是仅靠检索难以获得的。最终，KADS 模块成功地将提供了关键信息的 [Ret_2], [Gen_1], [Gen_2] 挑选出来，帮助模型做出了正确回答。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

结果回答了研究问题：MEDRGAG 的成功表明，通过一种智能协同的机制，确实可以有效统一外部知识和内部参数化知识，实现优势互补。

“生成”比“检索”更关键？：消融研究中，移除生成模块比移除检索模块对性能的损害更大。这并不意味着检索不重要，而是揭示了LLM 生成的、为问题量身定制的上下文，在构建完整、连贯的推理链条方面，比零散的检索片段更为重要。检索的角色是提供事实“锚点”，而生成则负责将这些锚点串联起来并补全缺失部分。

智能选择是关键：MEDRGAG 性能优于简单的融合方法 GRG，证明了 KADS 模块的价值。在信息爆炸的时代，“如何选择信息”和“如何获取信息”同等重要。KADS 模块扮演了关键的“信息策展人”角色。

4.2. 理论贡献 (Theoretical Contributions)

提出了一种新的知识增强范式：MEDRGAG 超越了传统的 RAG 和 GAG，提出了一种“诊断-生成-整合”的动态知识构建范式。这为如何更智能地利用 LLM 的内外知识提供了新的理论框架。

明确了检索与生成在知识增强中的不同角色：本研究通过实验清晰地界定了两者在医学问答中的作用：检索提供事实基础 (Factual Grounding)，而生成提供上下文补全和推理支持 (Contextual Completion & Reasoning Support)。

引入了“知识需求”驱动的选择机制：KADS 模块的核心思想是根据问题的“知识需求”来反向选择文档，这是一种新颖的、面向任务的信息选择方法，比传统的基于相似度的排序更进了一步。

论文的研究成果将给业界带来什么影响?

为开发更可靠的医疗AI提供新路径：在医疗、法律等高风险领域，对答案的可靠性要求极高。MEDRGAG 提供了一种有效降低幻觉、增强答案可解释性的方法，将推动更值得信赖的专业领域AI助手的发展。

推动 RAG 技术的演进：该研究将启发 RAG 领域从“如何更好地检索”向“如何将检索与生成更好地结合”演进，催生出更多智能化的 RAG 2.0 框架。

4.3. 实践启示 (Practical Implications)

对AI系统开发者：在构建知识密集型问答系统时，不应将 RAG 和 GAG 视为互斥选项。可以借鉴 MEDRGAG 的思路，设计一个流水线，先用检索获取基本事实，再用 LLM 分析检索结果并生成补充信息，最后进行智能筛选。

对医疗信息从业者：该技术可用于开发辅助医生诊断、回答患者疑问或进行医学教育的工具，通过提供整合了文献和模型知识的、更全面的信息，提高决策效率和质量。

4.4. 局限性与未来研究 (Limitations & Future Research)

局限性：

框架复杂性高：MEDRGAG 包含多个阶段和多个 LLM 调用，计算开销和延迟相对较高，对于实时性要求极高的场景可能不适用。

对辅助LLM能力依赖强：框架中 Summarizer, Explorer, Integrator 的表现严重依赖于 GPT-4o-mini 这类强大闭源模型的能力，如果换用较弱的开源模型，效果可能会打折扣。

错误累积风险：多阶段的流水线存在错误累积的风险，例如，如果在“缺失探索”阶段识别错了知识缺口，后续的生成和选择都可能被误导。

未来研究方向：

框架简化与效率提升：研究如何将多个阶段（如摘要、探索、生成）整合进单一个或更少的 LLM 调用中，降低复杂度和延迟。

端到端训练：探索对整个 MEDRGAG 框架进行端到端微调的可能性，让各个模块能更好地协同工作。

扩展到更复杂的任务：将该框架应用于更复杂的医学场景，如生成完整的诊断报告、进行多轮对话式问诊等。

5. 结论 (Conclusion)

本文提出了 MEDRGAG，一个创新的、统一的框架，旨在通过结合外部检索知识和模型内部参数化知识来解决医学问答的挑战。该框架通过其核心模块——知识引导的上下文补全 (KGCC) 和知识感知的文档选择 (KADS)，有效地弥补了传统 RAG 的知识不完整性和传统 GAG 的内容不可靠性。在多个基准测试上的优异表现证明了其设计的鲁棒性和通用性。MEDRGAG 不仅在性能上超越了现有方法，更重要的是，它为如何智能地融合不同来源的知识，以支持复杂、高风险领域的推理任务，提供了宝贵的见解和强大的解决方案。

6. 核心参考文献 (Core References)

Xiong, G., Jin, Q., Lu, Z., & Zhang, A. (2024).

链接

即 MedRAG 论文，是本文在 RAG 领域最主要的基线和比较对象。

Frisoni, G., Cocchieri, A., Presepi, A., Moro, G., & Meng, Z. (2024). To Generate or to Retrieve? On the Effectiveness of Artificial Contexts for Medical Open-Domain Question Answering. In Proceedings of ACL 2024.

链接

即 MedGENIE 论文，是本文在 GAG 领域最主要的基线和比较对象。

Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. In NeurIPS.

链接

经典的 RAG 开山之作，是整个领域的技术基础。

Yu, W., et al. (2022). Generate rather than retrieve: Large language models are strong context generators. arXiv.

链接

即 GenRead 论文，是 GAG 范式的代表性工作，为本文提供了 GAG 方面的理论基础和对比基线。

Zhang, Y., Khalifa, M., Logeswaran, L., Lee, M., Lee, H., & Wang, L. (2023). Merging Generated and Retrieved Knowledge for Open-Domain QA. In Proceedings of EMNLP.

链接

该工作探索了简单融合检索和生成知识的方法，是本文在“融合策略”上希望改进和超越的对象。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

从检索到生成：统一外部知识和参数化知识用于医学问答