择而知之:一个用于领域特定问答的内外知识自选择框架

论文信息

  • 标题 (Title):Select to Know: An Internal-External Knowledge Self-Selection Framework for Domain-Specific Question Answering

  • 作者 (Authors):Bolei He, Xinran He, Run Shao, Mingquan Cheng, Haifeng Li, Shanfu Shu, Xianwei Xue, Zhen-Hua Ling

  • 发表年份 (Year):2025 (preprint dated August 21, 2025)

  • 原文链接 (URL):(The paper is available on arXiv, specific URL is derived from the arXiv ID)

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):大型语言模型 (LLMs) 在通用问答任务中表现出色,但在专业领域(如医疗、法律)中仍有不足 。检索增强生成 (RAG) 虽然能引入外部知识,但存在由检索噪声导致幻觉和延迟的问题 。持续预训练方法成本高昂且缺乏跨领域灵活性 。本研究认为,这些挑战源于领域知识的长尾分布特性,导致模型已部分内化但尚不熟练的知识未被充分利用 。本研究旨在提出一个成本效益高的框架,通过智能地融合模型的内部知识和外部知识来解决这一问题。

  • 方法 (Methods):研究提出了 Select2Know (S2K) 框架,该框架通过一种新颖的“内外知识自选择”策略来构建训练数据,并采用“选择性监督微调 (Selective SFT)”来让模型专注于学习其尚未掌握的知识 。此外,还设计了一个结构化推理数据生成流程,并结合 Group Relative Policy Optimization (GRPO) 强化学习方法来提升模型的复杂推理能力

  • 结果 (Results):在医疗、法律和金融领域的问答基准测试中,S2K 框架的表现持续优于现有的增强方法(包括各种 RAG 和 post-training 策略) 。更重要的是,S2K 仅使用了比领域预训练模型少2-3个数量级的训练数据,就达到了与之相当甚至更好的性能

  • 结论 (Conclusion):S2K 是一个高效的框架,它仅使用原始语料库就能有效地将通用 LLM 的问答能力迁移和泛化到专业领域 。实验结果证明了该方法的有效性,尤其是在缺乏现成问答数据集的垂直领域


1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:尽管 LLMs 在通用问答中取得了巨大成功,但在处理医疗、法律等专业领域的问答任务时,其性能仍有明显差距 。目前主要有两种解决方案:(1)检索增强生成 (RAG),该方法通过从领域语料库中检索外部知识来辅助生成,但面临着检索延迟、计算成本高以及因检索到不相关或冲突信息而产生幻觉的风险 。 (2)持续预训练,该方法通过在大量领域语料上继续训练模型来内化知识,虽然效果显著,但资源消耗极大且模型难以迁移到其他领域

  • 核心研究问题 (RQs):本文提出了一个核心论点:LLMs 在专业领域表现不佳的根本原因在于预训练数据中领域知识的长尾分布 。这意味着 LLMs 已经通过预训练部分内化了一些领域知识(如图1所示),这些知识虽不完整,但仍非常有用 。因此,完全依赖外部知识的 RAG 是次优的 。核心问题是:如何设计一个成本效益高的框架,以智能、高效的方式融合模型已有的内部参数化知识与外部领域知识,从而提升其在专业领域的问答能力?

  • 核心研究问题是否是一个新的问题? 是的。该研究从“长尾知识分布”和“未被充分利用的内化知识”这一新颖视角来定义问题,挑战了当前主流的 RAG(纯外部)和持续预训练(纯内部)范式,并旨在探索两者之间的有效结合点。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究:现有研究主要集中在 RAG 和持续训练两大方向。RAG 通过引入外部知识来缓解幻觉并提升性能,但它也可能引入内部与外部知识冲突的问题 。持续训练则旨在将领域知识直接注入模型参数,包括在领域语料上继续预训练(如 BioMistral)或在领域问答对上进行微调

  • 研究缺口 (Gap):当前研究缺少一个能够低成本、高效率地解决领域自适应问题的框架。RAG 无法利用模型已有的内部知识,而持续预训练的成本过高。本文旨在填补这一空白,提出一个既能利用内部知识又能高效学习外部新知识的轻量级后训练 (post-training) 框架。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标:本文的核心目标是提出并验证一个名为 Select2Know (S2K) 的低成本后训练框架,用于领域特定的问答任务 。具体目标包括:

    1. 设计一种令牌级的内外知识自选择策略,以构建融合了模型内部知识和外部文档知识的训练数据

    2. 提出选择性监督微调 (Selective SFT),通过加权损失函数引导模型专注于学习其尚未掌握的领域知识

    3. 构建一个结构化推理数据生成流程,并结合 GRPO 强化学习,以增强模型应用知识进行复杂推理的能力


2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究采用系统构建与实验评估的研究范式

  • 方法论:S2K 框架包含两个核心阶段:数据生成模型训练

    • 数据生成阶段

      1. 元知识提取:首先,从原始、非结构化的领域语料库中,通过 LLM 提示工程生成基础的“问题式元知识”

      2. 内外知识融合:这是方法论的关键创新。对于一个问题,模型会并行生成两个答案:一个仅基于问题本身(代表内部知识 AI),另一个基于问题和相关文档(代表外部知识 AE。然后,在生成最终“融合答案”AF 的每个令牌时,系统会比较模型生成该令牌的概率,选择概率更高的来源。这一过程通过一个基于窗口和阈值的策略进行优化,以避免贪婪选择并保持答案连贯性

      3. 推理知识生成:为了模拟真实世界的复杂推理,系统会检索与一个元问题相关的多个知识点,并使用结构化的提示(分为演绎、归纳和案例三种类型)来生成需要多步推理的问答对

    • 模型训练阶段

      1. 选择性 SFT (Selective SFT):在对融合数据进行微调时,S2K 采用了一种新颖的损失函数。对于每个令牌,损失的权重与其(即模型的不确定性)成正比 。这使得模型能够“选择性地”专注于学习那些它不熟悉的新知识,从而提高训练效率

      2. 推理增强训练 (GRPO):在 SFT 之后,使用 GRPO 强化学习方法对模型进行进一步训练,奖励函数综合考虑了答案的准确性格式规范性,以提升其在真实场景中的推理和应用能力

  • 论文中提到的解决方案之关键是什么? 解决方案的关键在于其高效的知识内化机制。它通过令牌级的内外知识自选择策略,智能地判断何时相信模型的内部知识,何时依赖外部文档,从而创造出高质量的训练数据。随后,通过选择性 SFT,让模型以更高的效率吸收这些新知识,避免在已知知识上浪费计算资源。

  • 跟之前的方法相比有什么特点和优势?

    1. 成本效益高:与需要数千亿令牌进行持续预训练的方法相比,S2K 仅使用数千万级别的令牌即可达到同等甚至更好的效果,成本降低了2-3个数量级

    2. 知识融合更智能:与 RAG 简单地将外部文档作为上下文不同,S2K 能够辨别并纠正外部知识中的错误(如案例研究所示),因为它会信任模型本身更有把握的内部知识

    3. 训练效率高:选择性 SFT 通过关注模型的不确定性,使得训练过程更加有的放矢,避免了在模型已经掌握的知识上进行冗余更新

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源:本研究的一大前提是目标领域没有现成的问答训练数据集 。所有训练数据均从

    非结构化的领域语料库(如新闻、教科书、法规文件等)中生成

  • 样本

    • 训练样本:在医疗、法律和金融三个领域,研究分别生成了数万条元知识和融合知识样本,以及数千条推理知识样本(具体数量见附录表6)

    • 评估基准:使用了三个公开的、跨领域的 QA 基准进行评估:

      1. 医疗领域:MedQA

      2. 法律领域:JEC-QA

      3. 金融领域:FinanceIQ

2.3. 操作化与测量 (Operationalization & Measurement)

  • 基础模型:使用 Qwen2.5-instruct-7b 作为基础 LLM

  • 对比基线:研究与四类代表性方法进行了比较:

    1. 提示工程:0/1/3/5-shot 设置

    2. RAG:标准 RAG、Self-RAG 和 Self-Ask

    3. 后训练:标准 SFT、PPO 和 GRPO

    4. 领域预训练模型:如医疗领域的 BioMistral、法律领域的 Lawyer-LLaMA 等

  • 评估指标:使用三个指标来衡量模型性能,每个问题生成5个答案:

    1. Avg@5:5次生成的平均准确率

    2. Cons@5:5次生成中多数投票的准确率

    3. Pass@5:5次生成中至少有一次正确的比率


3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  1. S2K 性能全面领先:在医疗、法律和金融三个领域的基准测试中,S2K 的性能一致且显著地优于所有其他 QA 增强策略(包括提示工程、RAG 变体和标准后训练方法)

  2. S2K 成本效益极高:与在数百亿甚至数千亿令牌上进行预训练的领域专用模型相比,S2K 使用的训练数据量要少2到3个数量级,但性能却能达到甚至超过它们 。例如,在医疗领域,S2K 仅用 0.04B 令牌就达到了与使用 29.5B 令牌训练的 BioMistral 相当的性能

  3. 知识内化优于上下文注入:实验结果表明,像 Few-Shot 和 RAG 这样在上下文中注入知识的方法,其性能普遍不如将知识直接内化到模型参数中的后训练方法(如 SFT 和 S2K)

  4. S2K 各组件均不可或缺:消融实验(Ablation Study)证实,S2K 框架中的每个组件——内外知识融合、选择性 SFT 和 GRPO 强化学习——都对最终性能有积极贡献

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图 2:S2K 框架概览 (Figure 2: Overview of S2K)

    • 展示内容:该图是 S2K 框架的整体架构图,清晰地分为数据生成(1-X 系列)和模型训练(2-X 系列)两大阶段

    • 揭示关系:图中详细展示了知识从原始领域语料库(1-1)流向内外知识融合(1-2),再到推理知识构建(1-3)的全过程。随后,这些生成的数据被用于选择性 SFT(2-1)和强化学习(2-2),最终产出领域适应后的模型。该图是理解本文核心方法论的关键。

  • 表 1:S2K 与其他 QA 增强方法的性能对比 (Table 1: Performance Comparison)

    • 展示内容:该表在三个基准测试上,详细对比了 S2K 与 Zero-Shot、Few-Shot、RAG、SFT 等多种方法的性能。

    • 揭示关系:以 MedQA 数据集为例,S2K 的 Avg@5 得分为 38.6,显著高于标准 RAG(20.3)、Self-RAG(32.4)和标准 SFT(34.2) 。这有力地证明了 S2K 在算法层面的优越性。

  • 图 3:S2K 与领域预训练模型的成本效益对比 (Figure 3: Cost-Effectiveness Comparison)

    • 展示内容:该图通过并列柱状图,对比了 S2K(标记为 "Ours")与多个领域预训练模型在训练数据量(#Training Tokens)和性能(Avg@5, Cons@5, Pass@5)上的表现

    • 揭示关系:在 MedQA 图中,左侧的训练数据量柱显示,BioMistral 使用了 29.5B 令牌,而 S2K 仅使用了 0.04B 令牌 。然而,在右侧的性能图中,S2K 的性能(橙色柱)与 BioMistral(蓝色柱)相当甚至略优 。这直观地展示了 S2K 惊人的成本效益。

  • 表 5:内外知识融合案例研究 (Table 5: Knowledge comparison)

    • 展示内容:该表展示了一个关于 M1/M2 巨噬细胞功能的医学问题案例。它列出了原始文档、仅依赖外部知识生成的错误答案,以及 S2K 融合后的正确答案

    • 揭示关系:外部答案错误地将 M1 巨噬细胞与 Th2 反应联系起来 。而 S2K 的融合答案利用了模型的内部知识,成功纠正了这个错误,同时保留了外部来源的有用细节,生成了更完整、更准确的答案 。这生动地证明了内外知识融合机制的有效性。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 回答研究问题:是的,本研究的实验结果有力地回答了引言中提出的核心问题。S2K 框架证明,通过一种低成本的后训练方法,智能地融合模型的内部知识和外部知识,可以有效解决 LLMs 在专业领域的性能短板。其性能不仅超越了依赖纯外部知识的 RAG,而且在成本效益上远胜于依赖纯内部知识的持续预训练,为领域自适应提供了一个全新的、高效的解决方案。

4.2. 理论贡献 (Theoretical Contributions)

  • 理论贡献:本研究的核心理论贡献在于提出了一种新的知识内化范式。它挑战了领域适应必须依赖大规模数据预训练的传统观念。通过令牌级知识自选择基于不确定性的选择性微调,该研究为“如何让 LLM 更高效地学习”提供了具体且可操作的理论模型。这个模型的核心思想是:承认并利用模型已有的、不完美的内部知识,并将其作为学习新知识的基石,而非完全抛弃或忽略。

  • 对业界的影响:S2K 框架为在资源受限的情况下开发高性能、特定领域的 AI 应用提供了极具吸引力的方案。对于医疗、法律、金融等行业的公司来说,这意味着他们不再需要投入巨额资金进行模型预训练,而是可以利用现有的开源基础模型,结合自有的领域文档,通过 S2K 框架以较低的成本快速开发出专业的问答系统。

4.3. 实践启示 (Practical Implications)

  • 对 AI 开发者:在进行领域模型微调时,可以借鉴 S2K 的思路:首先评估模型对领域知识的掌握程度,然后通过类似选择性 SFT 的方法,将训练资源集中在模型“不懂”的部分,从而实现事半功倍的效果。

  • 对各行业应用:该框架提供了一个通用流程,使得将先进的 LLM 技术应用于任何拥有大量文本资料的专业领域成为可能,大大降低了技术门槛。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性:论文坦诚地指出了当前方法的局限性。S2K 主要关注对静态领域知识的建模,对于那些快速变化的、需要实时更新信息的领域(如新闻、实时金融市场分析)尚未进行专门优化

  • 未来研究:未来的工作计划将 RAG 技术整合到 S2K 框架中,以增强系统对动态知识的适应能力,同时保持其对静态知识的深度理解


5. 结论 (Conclusion)

为了解决领域特定问答(DSQA)中的挑战,本研究提出了 S2K,一个旨在提升 LLM 在长尾领域性能的高效框架 。在一个没有现成问答数据集的垂直领域,S2K 能够仅利用原始语料库,实现问答能力的有效迁移和泛化 。跨越多个代表性垂直领域的实验结果,充分证明了该方法的有效性

6. 核心参考文献 (Core References)

  1. Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems.

  2. Labrak, Y., et al. (2024). BioMistral: A collection of open-source pretrained large language models for medical domains. Findings of the Association for Computational Linguistics: ACL 2024.

  3. Shao, Z., et al. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. Preprint, arXiv:2402.03300.

    • 链接: https://arxiv.org/abs/2402.03300

    • 贡献: 该论文中可能包含了 GRPO (Group Relative Policy Optimization) 的相关信息,这是 S2K 框架中用于强化学习的核心算法。

  4. Brown, T., et al. (2020). Language models are few-shot learners. Advances in Neural Information Processing Systems.


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: