論文信息
标题 (Title):ProMed: Shapley Information Gain Guided Reinforcement Learning for Proactive Medical LLMs
作者 (Authors):Hongxin Ding, Baixiang Huang, Yue Fang, Weibin Liao, Xinke Jiang, Zheng Li, Junfeng Zhao, Yasha Wang
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2508.13514v1
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):现有医疗大语言模型 (LLMs) 多为“反应式” (reactive),即直接基于初始信息作答,缺乏在真实临床场景中通过主动提问来收集补充信息的能力,这在信息不充分时易导致误诊
。本研究旨在解决此局限,提出一个名为 ProMed 的强化学习 (RL) 框架,将医疗 LLM 从反应式范式转变为“主动式” (proactive) 范式,使其能够在决策前提出有临床价值的问题 。 方法 (Methods):ProMed 框架的核心是一种名为夏普利信息增益 (Shapley Information Gain, SIG) 的新颖奖励机制。该机制利用合作博弈论中的夏普利值来量化每个问题所带来新信息的临床效用和上下文重要性
。训练流程分为两个阶段:(1) SIG 引导的模型初始化,使用蒙特卡洛树搜索 (MCTS) 构建高回报的交互轨迹来对模型进行监督微调 ;(2) SIG 增强的策略优化,将 SIG 奖励集成到强化学习中,并通过一个定制的奖励分配机制对信息量大的问题进行针对性优化 。 结果 (Results):在两个新构建的部分信息医疗基准数据集上进行的大量实验表明,ProMed 框架的性能显著优于现有SOTA方法,平均提升了6.29%,并且相比传统的反应式范式,准确率提升了54.45%
。同时,该模型在领域外 (out-of-domain) 数据上也表现出强大的泛化能力 。 结论 (Conclusion):ProMed 作为一个创新的 RL 框架,通过引入基于夏普利信息增益的奖励机制和两阶段训练流程,成功地将医疗 LLM 从反应式转变为主动式,显著提升了其在信息不完整场景下的诊断准确性
。该框架为开发更安全、更可靠的交互式医疗 AI 系统提供了有效途径 。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:在真实的临床咨询中,医生需要通过主动提问来从患者模糊的主诉中收集关键信息,这是一个交互式的过程
。然而,当前先进的医疗 LLMs 主要在静态问答任务上表现出色,它们遵循一种“反应式”范式,即根据给定的初始信息直接生成答案,而不会主动寻求额外信息 。这种模式在面对信息不充分的现实场景时,存在导致误诊和危及患者安全的风险 。因此,推动医疗 LLMs 从反应式向主动式转变,使其具备在决策前通过提问获取信息的能力,是至关重要的 。 核心研究问题 (RQs):如何设计一个有效的训练框架,利用强化学习 (RL) 培养医疗 LLMs 主动寻求信息的能力?
如何定义和量化一个医学问题的“临床价值”,以创建一个精确、可靠的奖励信号来指导 RL 过程?
如何有效利用这个奖励信号来稳定、高效地优化 LLM 的策略,使其学会提出有针对性的、高信息价值的问题?
核心研究问题是否是一个新的问题? 是。虽然已有研究尝试通过提示工程或监督微调来让 LLM 提问,但这些方法未能从根本上提升模型的“主动”决策能力,且效果有限
。将强化学习应用于此场景,并为其设计一个基于博弈论的、能够精准量化问题临床价值的奖励机制,是一个全新的、更具根本性的解决方案。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:
基于提示工程的方法:通过设计复杂的提示框架来引导 LLM 提问,但并未从根本上提升模型的主动能力,性能往往不如直接作答
。 基于监督微调 (SFT) 的方法:在静态的多轮对话数据上训练模型以模仿交互行为,但这种方式缺乏对多样化和不可预测的真实患者场景的适应性
。 问题价值评估方法:现有方法通常依赖启发式规则、LLM 评分或孤立的“留一法”评估,这些方法忽略了医学事实之间复杂的组合与依赖关系,无法准确评估一个问题在特定上下文中的真实价值
。
研究缺口 (Gap):
缺乏 principled 的奖励机制:现有工作缺少一个有理论依据的奖励函数来量化一个问题在复杂临床情境下的真实效用,特别是无法捕捉信息之间的协同或竞争关系
。 缺乏为主动提问定制的 RL 框架:通用的 RL 算法(如 GRPO)虽然提供了优化 LLM 的框架,但它们通常将奖励均匀分配给所有 token,未能针对性地强化“提问”这一具体行为,导致优化效率和稳定性不足
。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:本文的核心目标是开发并验证一个名为 ProMed 的强化学习框架,该框架通过一个基于合作博弈论的奖励信号来训练医疗 LLMs,使其掌握在信息不充分时主动、有效地提出临床关键问题的能力。
核心假设/命题:
通过强化学习,可以有效地将医疗 LLMs 从反应式范式转变为主动式范式。
合作博弈论中的夏普利值可以用来精确量化医学事实的上下文重要性,从而构建一个能够准确反映问题临床价值的奖励信号 (SIG)。
一个结合了 SIG 引导的 MCTS 初始化和 SIG 增强的策略优化的两阶段 RL 框架,能够稳定且高效地训练出具备强大主动信息寻求能力的医疗 LLM。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究是定量研究,通过在标准化的医疗基准数据集上进行受控实验,以诊断准确率作为核心指标,来量化评估所提出框架 (ProMed) 相对于基线方法的性能提升。
方法论:研究采用强化学习 (RL) 方法论,构建了一个名为 ProMed 的定制化框架。该框架的核心是 Shapley Information Gain (SIG) 奖励机制,并包含一个两阶段的训练流程:
阶段一:SIG 引导的模型初始化 (SIG-Guided Model Initialization):为了解决 RL 初始策略较弱可能导致的训练不稳和收敛慢的问题,此阶段使用蒙特卡洛树搜索 (MCTS) 结合 SIG 奖励来探索和构建高质量的医患交互轨迹。然后,在这些最优轨迹上对 LLM 进行监督微调 (SFT),为模型“预热”并注入初步的主动提问行为
。 阶段二:SIG 增强的策略优化 (SIG-Augmented Policy Optimization):此阶段在初始化后的模型基础上进行强化学习。它将 SIG 奖励集成到 Group Relative Policy Optimization (GRPO) 算法中,并引入一个创新的 SIG 引导的奖励分配机制。该机制根据每个问题自身的 SIG 值将轨迹的总奖励按比例分配给不同的问题,从而实现对高价值提问行为的“精准打击”式优化
。
论文中提到的解决方案之关键是什么? 解决方案的关键在于
夏普利信息增益 (Shapley Information Gain, SIG) 奖励。这个奖励机制首次将合作博弈论引入到 LLM 的奖励设计中,它不仅仅计算新信息的数量,更重要的是通过夏普利值计算了每个信息点在所有可能信息组合中的“边际贡献”,从而捕捉了信息之间的相互依赖和协同作用,为“什么是一个好问题”提供了坚实的量化依据
。 跟之前的方法相比有什么特点和优势?
奖励的精确性与合理性:相较于依赖启发式规则或孤立评估的方法,SIG 奖励能够更准确、更稳健地评估问题的临床价值,因为它考虑了医学事实的复杂相互作用
。 训练的稳定性与高效性:两阶段训练流程通过“SFT预热+RL微调”的模式,有效缓解了 RL 训练初期的不稳定性,提高了收敛效率
。 优化的细粒度:SIG 引导的奖励分配机制将奖励信号精准地传递到每个具体的“提问”动作上,使得优化目标更明确,能够更有效地强化模型提出高价值问题的能力,而不是笼统地奖励整个轨迹
。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:数据来源于两个公开的大型多项选择医疗基准数据集:MedQA (英文) 和 CMB (中文)
。 样本:研究者对原始数据集进行了二次加工,以构建适用于“交互式问答”任务的新基准。加工流程包括:
将原始问题的题干分解为一组“原子事实” (atomic facts)
。 创建一个不包含任何事实的“原子问题”
。 构建“部分信息问题”,即仅向模型提供一部分原子事实(例如,MedQA 只提供主诉,CMB 提供约一半事实),以模拟真实的临床初始场景
。最终构建的 MedQA 数据集包含约 1.27 万个问题,CMB 数据集包含约 1.93 万个问题 。
2.3. 操作化与测量 (Operationalization & Measurement)
原子事实 (Atomic Facts):将原始问题中的所有临床信息分解为最小的、独立的语义单元(如“患者为男性”、“患者发烧”)
。 信息增益 (Information Gain):一个问题的信息增益被定义为在回答该问题后,模型新掌握的原子事实的数量
。 事实的重要性 (Shapley Value):一个原子事实 f_i 的重要性通过其夏普利值 phi(f_i) 来测量。夏普利值的计算考虑了将 f_i 加入到任意事实子集 S 中时,模型预测正确答案的对数概率 $log P(A^\*|Q, S)$ 的边际提升量,并对所有可能的子集进行加权平均
。 SIG 奖励:一个问题 q_t 的最终 SIG 奖励是其所引出的新事实的夏普利值的加权和,权重由所有事实的夏普利值经过 softmax 归一化得到
。 模型性能:通过准确率 (Accuracy) 进行测量,即模型在经过多轮提问后,最终给出的答案与标准答案完全匹配的比例
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
主动提问训练至关重要:直接回答(反应式范式)在信息不充分的情况下表现极差(例如,在 CMB 数据集上准确率仅为 19.34%),而现有的基于提示的方法也无法稳定提升性能,证明了针对性训练的必要性
。 ProMed 性能卓越:ProMed 在所有模型和数据集上均一致且显著地超越了所有基线方法,平均相对性能比第二名高出 6.29%,比直接作答平均高出 54.45%,有力证明了其能有效将 LLM 转变为主动信息寻求者
。 两阶段训练的有效性:阶段一(SIG 引导的 SFT)本身就提供了高质量的监督信号,其性能优于其他 SFT 方法
。阶段二(SIG 增强的 RL)在阶段一的基础上进一步稳定地提升了模型性能,证明了 SIG 奖励和细粒度分配机制在策略优化中的价值 。 强大的泛化能力:在跨数据集的 OOD(领域外)测试中,ProMed 训练的模型依然能够超越其他强基线方法,表明 ProMed 培养的是一种可迁移的、通用的主动提问能力,而非对特定训练数据的过拟合
。 超越专用医疗 LLM:与现有开源的、经过大量医学数据预训练的医疗 LLM(如 HuatuoGPT, OpenBioLLM)相比,在通用 LLM 上使用 ProMed 进行微调后的模型表现出了压倒性的优势,说明仅有医学知识是不够的,主动交互能力的专门训练是不可或缺的
。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
表 1:主要性能对比 (Performance comparison on MedQA and CMB-Exam)
图表内容:该表展示了三种不同规模的 LLM (Qwen3-1.7B, LLaMA3.2-3B, LLaMA3.1-8B) 在 MedQA 和 CMB-Exam 两个数据集上,采用不同方法(直接回答、多种提示方法、SFT 方法、RL 方法)后的诊断准确率。
揭示的关系/趋势:
ProMed (Stage 1+2) 在所有组合中均取得了最高分
。 “Direct”(直接作答)的分数最低,验证了反应式范式的局限性
。 各类基于提示 (Prompt) 的方法性能不稳定,甚至有时低于直接作答
。 ProMed 的两个阶段都贡献了性能:Stage 1 优于其他 SFT 方法,而 Stage 1+2 (完整 ProMed) 又优于 Stage 1 和其他 RL 方法,显示了框架设计的有效性
。
表 8:案例研究 (A Case Study from MedQA)
图表内容:该表展示了一个具体的临床案例。在信息不充分的情况下,基础 LLM(未经过 ProMed 训练)直接给出了错误诊断(类风湿性关节炎)
。而经过 ProMed 优化的模型则首先主动提出了一个关于“指甲变化”的关键问题,在获得“指甲凹陷”这一关键信息后,成功给出了正确诊断(银屑病关节炎) 。 揭示的关系/趋势:这个案例生动地展示了 ProMed 的核心价值:它成功地将模型从一个草率决策的“反应者”转变为一个谨慎探究的“主动者”
。模型学会了识别信息缺口,并提出能够最大化鉴别诊断价值的问题,从而显著提高了诊断的准确性和安全性 。
表 3:消融研究 (Ablation studies of ProMed)
图表内容:该表系统性地移除了 ProMed 框架的各个关键组件(如阶段一、阶段二、SIG 奖励、夏普利值加权、奖励分配机制),并观察其在域内和域外测试集上的性能下降情况。
揭示的关系/趋势:所有组件都是必要且互补的
。移除任何一个部分都会导致性能显著下降 。特别是,移除阶段一(初始化)对域内性能影响最大,而移除阶段二(RL优化)对 OOD 泛化能力损害最严重,这证实了两阶段设计的互补性和SIG奖励机制在泛化中的关键作用 。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
结果解读:实验结果有力地证明,ProMed 框架成功地解决了医疗 LLM 在交互式诊断中的核心短板。通过引入一个有坚实理论基础的奖励机制和一套精心设计的训练流程,ProMed 不仅让 LLM 学会了“提问”,更重要的是学会了“提有价值的问题”。显著的性能提升和强大的泛化能力表明,这是一种根本性的能力增强,而非简单的任务拟合。
回答研究问题:是的,研究结果清晰地回答了引言中的核心问题。
ProMed 提供了一个有效的、基于 RL 的两阶段训练框架。
SIG 奖励机制被证明是一种能够准确量化问题临床价值的有效方法。
SIG 增强的策略优化和细粒度的奖励分配机制被验证能够高效稳定地优化 LLM 的主动提问策略。
4.2. 理论贡献 (Theoretical Contributions)
对现有理论的贡献:
开创了主动式医疗 LLM 的新范式:首次系统性地提出了通过强化学习将医疗 LLM 从反应式转向主动式的训练框架,为解决 LLM 在动态、不确定环境下的决策问题提供了新思路
。 创新了 LLM 的奖励设计:首次将合作博弈论中的夏普利值引入 LLM 的奖励函数设计,为量化信息和知识在复杂上下文中的价值提供了一个全新的、有理论依据的视角
。这对于所有需要 LLM 进行信息收集和推理的任务(不仅限于医疗)都具有启发意义。
论文的研究成果将给业界带来什么影响? 这项成果为开发下一代智能医疗助手和诊断支持系统提供了核心技术。业界可以利用 ProMed 框架来训练他们的医疗 LLM,使其在与医生或患者交互时更加智能和安全,能够主动发现并询问缺失的关键信息,从而减少误诊率。这不仅能提升 AI 医疗产品的用户体验和临床价值,还能增强其在实际应用中的可靠性和安全性,推动 AI 在严肃的医疗决策场景中得到更广泛的信任和应用。
4.3. 实践启示 (Practical Implications)
对 AI 医疗产品开发者:提供了一套可以直接应用的、用于训练主动式交互能力的算法和流程,可以用来显著提升现有医疗对话机器人或辅助诊断系统的智能水平。
对临床医生:未来由 ProMed 训练的 AI 助手可以成为更可靠的伙伴。当医生输入初步信息时,AI 不会急于给出结论,而是可能反问“患者是否有某某症状?”或“某项检查结果如何?”,帮助医生查漏补缺,减少认知偏误。
对患者:通过与更智能的 AI 医疗应用交互,患者可以得到更准确的初步指导,AI 能够引导患者提供更有价值的信息,从而更有效地与人类医生沟通。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
模拟环境:训练和评估均在模拟的对话环境中进行,可能无法完全捕捉真实医患交互的复杂性
。 任务形式有限:实验主要集中于多项选择的诊断任务,在更开放的任务(如自由形式的治疗方案规划)上的效果有待探索
。 模型规模限制:实验使用的模型最大为 8B 参数,更大规模 LLM 的潜力尚未完全发掘
。 数据模态单一:目前仅处理文本信息,未能融合多模态数据(如医学影像、时间序列数据)
。
未来研究:
扩展到更广泛的领域:将该主动式范式应用于需要交互决策的其他领域
。 结合长期推理与结构化知识:在框架中融入更长期的推理能力和外部知识库
。 融合多模态信息:将框架扩展以支持处理和提问关于图像、生理信号等多模态数据的问题。
5. 结论 (Conclusion)
本文提出了 ProMed,一个新颖的、旨在将医疗 LLM 从被动的“反应式”范式转变为主动的“主动式”范式的强化学习框架。其核心创新在于引入了夏普利信息增益 (SIG) 奖励,它利用合作博弈论精确地量化了医学提问的临床价值。通过一个两阶段的、SIG 增强的 RL 流程,ProMed 能够稳定地训练模型,使其掌握在信息不充分时主动寻求关键信息的能力。实验结果表明,ProMed 不仅显著优于现有方法,并且具备强大的泛化能力,为构建更安全、更可靠的交互式医疗 AI 系统铺平了道路
。
6. 核心参考文献 (Core References)
[1] Sutton, R. S., & Barto, A. G. (1999). Reinforcement learning. Journal of Cognitive Neuroscience, 11(1), 126-134.
这篇文献是强化学习领域的基础性著作,为本文采用的 RL 方法论提供了理论基础
。
[2] Winter, E. (2002). The shapley value. Handbook of game theory with economic applications, 3, 2025-2054.
该文献详细介绍了夏普利值,是本文核心奖励机制 (SIG) 的直接理论来源,用于量化信息在合作博弈中的贡献
。
[3] Shao, Z., Wang, P., Zhu, Q., et al. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300.
这篇文献中可能介绍了 GRPO (Group Relative Policy Optimization) 算法,这是 ProMed 在阶段二进行策略优化的基础算法
。
[4] Hu, Z., Liu, C., Feng, X., et al. (2024). Uncertainty of thoughts: Uncertainty-aware planning enhances information seeking in llms. Advances in Neural Information Processing Systems, 37.
这篇文献代表了另一种(基于不确定性/熵减少)让 LLM 主动提问的思路,是本文进行对比和论证其方法优势的一个重要参照点
。
[5] Li, S., Balachandran, V., Feng, S., et al. (2024). Mediq: Question-asking llms and a benchmark for reliable interactive clinical reasoning. Advances in Neural Information Processing Systems, 37.
该文献提出了 MEDIQ 框架和相关基准,是交互式医疗问答领域的前沿工作,也是 ProMed 在实验中进行比较的一个关键基线方法
。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment