论文信息
标题 (Title):Embedding Domain Knowledge for Large Language Models via Reinforcement Learning from Augmented Generation
作者 (Authors):Chaojun Nie, Jun Zhou, Guanxiang Wang, Shisong Wu, Zichen Wang
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2509.20162
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):由于训练数据中专业信息占比天然较低且数据静态,大型语言模型 (LLMs) 在特定领域任务上表现有限
。现有的知识嵌入方法,如持续预训练 (CPT) 和监督微调 (SFT),分别存在未能优先处理关键知识点和难以构建复杂推理所需的连贯知识结构等问题 。本研究旨在解决这些挑战,提出一种新方法来高效地嵌入关键且上下文连贯的领域知识。 方法 (Methods):研究提出了一种名为“来自增强生成的强化学习” (Reinforcement Learning from Augmented Generation, RLAG) 的新方法
。该方法通过迭代地进行“采样”和“优化”:首先采样模型在有(增强生成)和没有(朴素生成)外部知识文档辅助下的两种输出,然后利用一个包含三种精心设计的奖励指标(知识奖励、增强生成奖励、朴素生成奖励)的函数来优化模型,从而将知识内化到模型参数中 。 结果 (Results):在生物医学、法律、天文学和时事新闻四个领域的数据集上的实验表明,RLAG 方法在答案准确性和解释的合理性方面均显著优于基线方法(如 CPT 和 SFT)
。例如,在时事新闻数据集上,RLAG 的准确率平均比先前方法高出 14.03% 。 结论 (Conclusion):RLAG 是一种有效的知识嵌入方法,它通过一种基于奖励的优化过程,使模型能够独立地生成增强后的内容,从而解决需要深度推理的知识密集型任务
。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:大型语言模型 (LLMs) 因其广泛的训练语料库,在存储和应用事实知识方面表现出色
。然而,通用训练数据中专业领域知识的代表性不足,加上数据本身的静态性,导致 LLMs 在处理高度专业化或时效性强的问题时存在“知识鸿沟”,表现不佳 。 核心研究问题 (Research Questions, RQs):如何有效且永久地将特定领域的知识嵌入到 LLM 的模型权重中,使其不仅能回答事实性问题,还能构建连贯的知识结构以支持复杂的推理任务,从而克服现有知识嵌入方法的局限性?
核心研究问题是否是一个新的问题? 将知识注入 LLM 并非一个全新的问题,但本文针对现有方法的特定缺陷提出了新的解决方案。现有方法,如持续预训练 (CPT) 和监督微调 (SFT),在处理需要复杂推理的任务时效果不佳。因此,如何为了复杂推理而构建连贯的内部知识结构是一个尚未被很好解决的问题,本文提出的 RLAG 是对此问题的新探索。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究梳理:
推理期方法 (Inference-time Methods):如上下文学习 (ICL) 和检索增强生成 (RAG),通过在推理时提供外部信息来提升性能,但它们不改变模型自身的内在能力,知识没有被永久嵌入模型权重中
。 权重嵌入方法 (Weight-embedding Methods):
持续预训练 (CPT):在领域语料库上继续训练模型,但该方法平等对待所有词元 (tokens),无法识别和优先学习关键知识点
。 监督微调 (SFT):使用“问题-答案”对进行微调,能有效嵌入关键信息,但模型往往只学会了“映射”关系,缺乏形成连贯知识体系以支持复杂推理的能力
。
研究缺口 (Gap):当前领域缺乏一种能够将知识结构化、有重点地嵌入模型参数,并显式地提升模型复杂推理能力的方法。现有方法要么是临时的外部辅助(RAG),要么是效率低下或无法培养推理能力的权重修改(CPT/SFT)。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:
提出一种新的知识嵌入框架 RLAG,旨在有效、永久地将领域知识注入 LLMs。
通过 RLAG,使模型不仅能准确回答问题,还能为其正确答案提供逻辑清晰、事实准确的解释。
在多个专业领域验证 RLAG 相对于 CPT 和 SFT 等基线方法的优越性。
核心假设:本文的核心假设是,通过强化学习的方式,奖励模型独立生成“在有知识辅助下的高质量输出”,能够比直接学习文本语料(CPT)或问答对(SFT)更有效地内化知识结构,从而提升复杂推理能力。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
本研究属于定量研究 (Quantitative),采用实验方法来验证所提出新算法的有效性。
核心方法论:本文提出了来自增强生成的强化学习 (Reinforcement Learning from Augmented Generation, RLAG)。其灵感来源于“来自人类反馈的强化学习”(RLHF),但创新性地用“机器增强生成”替代了“人类反馈”
。其过程是一个迭代循环,包含两个核心阶段:采样 (Sampling) 和 优化 (Optimizing) 。 论文中提到的解决方案之关键是什么? 解决方案的关键在于其奖励机制 (Reward Mechanism)。它不依赖于昂贵的人工标注,而是巧妙地定义了一个“偏好”:对于同一个问题,有相关知识文档辅助下的模型生成 () 总是优于 没有任何辅助的朴素生成 ()
。整个学习过程就是让模型在没有外部文档时,其自身的输出也能逼近有文档辅助时的输出。 跟之前的方法相比有什么特点和优势?
自动化偏好学习:与 RLHF 依赖人工标注偏好不同,RLAG 的偏好信号是自动生成的,成本更低。
注重推理过程:与 SFT 只关注最终答案的正确性不同,RLAG 通过奖励与知识文档一致的生成过程,促使模型学习推理链条,而不仅仅是事实本身。
知识优先级:与 CPT 对所有文本一视同仁不同,RLAG 围绕具体问题进行优化,天然地将与任务相关的知识点作为学习的重点。
2.2. 数据来源与样本 (Data Source & Sample)
研究在四个不同的下游任务上进行了实验:
生物医学:使用 MedQA 中的 USMLE(美国国家医疗执照考试)任务,包含上万个训练实例和18本医学教科书作为知识库
。 法律:使用 BarExamQA 任务,包含来自真实律师资格考试的问题和相关的法律文件
。 天文学:使用 MMLU 基准中的天文学任务
。 时事新闻:为了测试模型学习新知识的能力,作者构建了一个包含模型训练截止日期之后发生的事件(如2024年夏季奥运会、2025年德国联邦选举等)的数据集
。
2.3. 操作化与测量 (Operationalization & Measurement)
关键变量操作化:RLAG 的核心是其奖励函数 rw,它由两个部分组成
: 知识奖励 ():提升与问题相关的知识文档的先验概率,促进模型将这些知识“记在心里”
。 增强生成奖励 ():奖励模型在有知识辅助下生成的答案,确保知识嵌入的方向是正确的
。 同时,通过惩罚朴素生成奖励 (),拉大模型在“无知”和“有知”状态下的差距,从而强化知识的整合
。
测量方法:采用两阶段评估:
答案准确率 (Answer Accuracy):通过计算模型为正确选项生成的对数概率来确定预测的准确性
。 解释胜率 (Explanation Win Rates):对于回答正确的问题,让模型生成解释,并使用 GPT-4 Turbo 和 Grok-3 作为裁判,评估解释的逻辑清晰度和事实准确性,并计算胜率
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
RLAG 性能全面领先:在所有四个领域(医学、法律、天文学、时事)和三种不同规模的模型上(Qwen2-7B, Llama-3.1-8B, Llama-3.2-3B),RLAG 的表现在答案准确率和解释合理性两方面均一致且显著地优于所有基线方法(Base, CPT, SFT, CPT+SFT)
。 RLAG 在推理任务上优势明显:在法律推理任务 (BarExamQA) 上,基线方法 SFT 仅学会了问答映射而推理能力不足,CPT 则因法律文件庞大而遭遇灾难性遗忘。相比之下,RLAG 表现优越,证明了其在培养模型推理能力方面的有效性
。 RLAG 能有效学习新知识:在时事新闻数据集上,RLAG 相比最优基线(CPT+SFT)取得了 9.8 到 19.1 个百分点的显著提升,证明了其在嵌入模型训练截止日期后的新知识方面的强大能力
。 RLAG 保持了解释的合理性:一个关键发现是,虽然基线方法(特别是 SFT)也能提升答案准确率,但这往往以牺牲解释的合理性为代价(即模型“知其然不知其所以然”)。而 RLAG 在提升准确率的同时,几乎完美地保持了高质量的解释能力
。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
表 1 & 表 2:主要结果
这两张表格是核心的量化结果。数据显示,例如在 Llama-3.1-8B 模型上,RLAG 在 USMLE 任务上的准确率 (32.4%) 和 BarExamQA 上的准确率 (35.9%) 均高于 CPT+SFT (33.3%, 36.8%) 和其他基线
。更重要的是解释胜率,RLAG 均显著高于对手。
图 4:在 USMLE 数据集上的性能对比
该图直观地展示了 RLAG 的核心优势。图中蓝色部分代表“连贯的解释”,橙色部分代表“不充分的解释”。
解读:从 Base 模型到 SFT 和 CPT+SFT,尽管总的答案准确率(柱子总高度)有所提升,但橙色部分(不充分的解释)的比例从 5.1% 激增到 16.3% 和 23.2%
。这说明模型是在“死记硬背”答案。而 RLAG 不仅准确率最高,其不充分解释的比例也仅有 6.8%,与 Base 模型持平 。这强有力地证明了 RLAG 真正地将知识和推理逻辑嵌入了模型。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
结果的意义:研究结果表明,RLAG 成功地解决了传统知识嵌入方法的痛点。它不仅仅是让模型记住事实,而是通过模拟一个“开卷考试”到“闭卷考试”的学习过程,迫使模型内化知识并构建起能够支持复杂推理的内部逻辑结构。
回答研究问题:是的,实验结果有力地回答了引言中提出的核心问题。通过在多个领域的优异表现,RLAG 被证明是一种能够有效嵌入连贯知识并支持复杂推理的新方法。
4.2. 理论贡献 (Theoretical Contributions)
对现有理论的贡献:本文在强化学习应用于 LLM 知识嵌入方面做出了重要贡献。它首次提出了一种无需人类反馈、利用模型自身增强生成作为奖励信号的强化学习框架。这为如何将外部知识高效、结构化地内化到模型参数中提供了一个全新的、可行的理论范式。
对业界的影响:这项研究为开发需要高度专业知识和可靠推理能力(如医疗诊断、法律咨询、金融分析)的垂直领域大模型提供了一种更优的训练方案。相比于简单的微调,RLAG 能够产出更可靠、更可信、更具解释性的模型,这在这些高风险领域至关重要。
4.3. 实践启示 (Practical Implications)
对实践者的指导意义:对于希望构建专业领域 LLM 的开发者来说,如果应用场景不仅需要事实准确,更需要强大的推理和解释能力,那么 RLAG 提供了一个比 CPT 和 SFT 更有效的技术路径。虽然其计算成本更高(约为基线的10倍),但性能的显著提升证明了这种投资的价值
。
4.4. 局限性与未来研究 (Limitations & Future Research)
研究的局限性(论文作者已明确指出):
依赖知识文档:RLAG 虽无需人工标注,但训练时仍需为每个问题提供相关的知识文档,这依赖于检索系统的质量
。 计算成本高:包含在线采样和优化,训练时间比基线方法长一个数量级
。 不适用于闭源模型:RLAG 需要获取词元的概率,因此无法用于不提供此类访问权限的 API 模型
。 模型规模有限:实验主要集中在 3B 到 8B 参数的模型,未能在更大规模模型上验证
。
未来研究方向:作者提出,未来的工作目标是实现知识的动态嵌入 (dynamically embed knowledge),而不是目前的离线训练模式,以适应知识不断变化的需求
。
5. 结论 (Conclusion)
本文提出了一种创新的知识嵌入方法 RLAG,它通过一种基于奖励的迭代优化过程,使大型语言模型能够有效内化领域知识,从而解决需要深度推理的知识密集型任务。实验证明,与传统的 CPT 和 SFT 方法相比,RLAG 在答案准确性和解释合理性上都表现出显著的优越性,为构建更强大、更可靠的专业领域大模型提供了一条新的路径。
6. 核心参考文献 (Core References)
[1] Ouyang, L., et al. (2022). Training language models to follow instructions with human feedback.
链接: (NeurIPS)
重要性: 这是关于 RLHF 的开创性工作(InstructGPT),为本文提出的 RLAG 提供了核心的理论灵感
。
[2] Guu, K., et al. (2020). Retrieval augmented language model pre-training.
链接: (ICML)
重要性: 这是 RAG 的经典论文之一。本文将 RLAG 与 RAG 进行了明确区分,指出 RAG 是推理期方法,而 RLAG 是将知识嵌入模型权重
。
[3] Gururangan, S., et al. (2020). Don't stop pretraining: Adapt language models to domains and tasks.
链接: (arXiv)
重要性: 这是关于领域自适应预训练(即 CPT)的代表性工作,是本文用于对比的关键基线方法之一
。
[4] Wei, J., et al. (2021). Finetuned language models are zero-shot learners.
链接: (arXiv)
重要性: 该论文是关于指令微调(一种 SFT)的 foundational work,同样是本文进行比较的重要基线方法
。
No comments:
Post a Comment