LLMEval-Med:一个经临床医生验证的、面向真实临床应用的医学大型语言模型基准

在医学领域,对大型语言模型(LLM)的评估至关重要,因为医疗应用对准确性要求极高,不容有失。当前医学基准主要可分为三类:基于医学考试的基准、综合性医学基准以及特定专科评估基准。然而,这些基准在问题设计(多为选择题形式)、数据来源(通常并非源自真实的临床实践场景)以及评估方法(难以有效评估复杂推理能力)等方面均存在局限性。

为应对上述问题,我们提出了LLMEval-Medicine(简称LLMEval-Med)——一个新的基准,它涵盖了五大核心医学领域,包含了2996个源于真实世界电子健康记录及由临床专家设计的模拟病例问题。我们还设计了一套自动化评估流程,将由专家制定的评估清单整合至我们提出的“以大型语言模型为评判者”(LLM-as-Judge)的框架之中。此外,我们的方法论通过人机一致性分析来验证机器评分的准确性,并根据专家反馈动态优化评估清单及提示语,以保障评估结果的可靠性。

我们在LLMEval-Med上对三大类别(医学专用模型、开源模型及闭源模型)的13个大型语言模型进行了评估,为大型语言模型在医疗领域的安全、有效部署提供了极具价值的参考。该数据集已在 https://github.com/llmeval/LLMEval-Med 公开发布。


一、论文的研究目标、实际问题、科学假设及相关研究

  1. 研究目标与实际问题 该论文的主要研究目标是提出并验证一个名为MedCCO的多模态强化学习框架,该框架通过课程驱动的强化学习范式(curriculum-driven RFT paradigm)统一处理医学视觉问答(Medical VQA)中的封闭式和开放式任务,以增强模型的推理能力、域外泛化能力、知识深度和临床可解释性

    它旨在解决以下几个关键的实际问题:

    • 医学影像任务对高级能力的需求:医学影像任务不仅要求视觉解读的准确性,还需要透明的、临床相关的基本原理来支持每个诊断决策。此外,真实临床环境中经常需要开放式推理能力,这对于可信赖的决策和及时的治疗干预至关重要。
    • 现有医学强化学习微调(RFT)方法的局限性:当前应用于医学视觉语言模型(VLM)的RL方法主要关注封闭式VQA任务(如判断影像类型、身体部位等基础视觉理解),这限制了模型进行更深入的开放式推理、世界知识检索和灵活任务适应的能力。
    • 开放式推理对临床的重要性:这些方法未能满足临床对开放式、推理密集型决策的关键需求。
    • 缺乏统一处理不同VQA任务类型的框架:如何在一个框架内有效地结合封闭式任务(强调判别准确性)和开放式任务(强调生成灵活性和深度推理)的训练,是一个挑战。
  2. 是否是一个新的问题? 将强化学习应用于LLM和VLM以增强推理能力,以及医学VQA本身,都已有研究。然而,**专门针对医学VLM,提出一个统一的框架(MedCCO),通过“课程学习”的策略,将封闭式VQA和开放式VQA数据结合起来进行强化学习微调,以系统性地提升模型的综合医学推理能力和泛化性,这是一个新的探索方向。**特别是,该研究旨在解决当前医学RFT方法过度集中于封闭式任务而忽略了对临床实践至关重要的开放式推理能力的培养这一特定问题。

  3. 科学假设 论文的隐含科学假设是:通过一种课程驱动的强化学习策略(MedCCO),首先在多样化的封闭式医学VQA任务上对VLM进行微调以建立领域基础的推理能力,然后逐步将其适应到更具挑战性的开放式任务上,能够比单独训练或简单混合训练更有效地提升模型在封闭式和开放式医学VQA任务上的综合性能、泛化能力和临床可解释性,同时避免了对人工精心制作的思维链(CoT)标注的依赖。

  4. 相关研究与归类 论文在第二节(Related Work)中讨论了相关研究,主要分为三类:

    • 通用和医学VLM (General and Medical VLMs)
      • 基于对齐的方法如CLIP和BLIP-2为VLM奠定了基础。
      • 通过对数十万高质量图文对进行指令微调,可以解锁强大的VQA和多模态推理能力。
      • 这种范式已被扩展到医学领域,产生了如Med-Flamingo, LLaVA-Med, HuatuoGPT-Vision等模型,它们结合了大规模医学图文对齐和领域特定的监督,以支持准确的视觉理解和基础临床诊断。
    • LLM/VLM中的强化学习 (Reinforcement learning in LLMs/VLMs)
      • RL被广泛用于使VLM和LLM与人类偏好对齐并减少幻觉。
      • 基于GRPO(Group Relative Policy Optimization)的方法通过基于规则的奖励,在增强VLM/LLM推理能力方面显示出强大效果,并在通用视觉推理场景中得到广泛验证(如Vision-RL, Seg-Zero, VLM-R1)。
      • 然而,这些在通用领域的进展尚未在医学影像领域得到系统验证。
    • 医学LLM/VLM中的强化学习 (Reinforcement Learning in Medical LLMs/VLMs)
      • 近期研究开始探索RL作为SFT的可扩展替代方案,以增强医学推理。
      • 在LLM方面,FineMedLM-01和MedReason通过测试时适应和结构化知识监督扩展了训练范式,而HuatuoGPT-ol利用可验证问题通过RL改进推理。
      • 在VLM方面,进展相对有限。Med-R1和MedVLM-R1等近期工作表明,基于规则的RL可以增强医学VQA的泛化能力,但仅关注封闭式问题,忽略了跨模态的统一推理。
      • 本文工作旨在通过引入一个统一处理封闭式和开放式VQA的RL框架来填补这一空白,并设计了特定任务的奖励和课程训练策略。
  5. 值得关注的研究员/机构

    • 论文作者团队:Shaohao Rui, Kaitao Chen, Weijie Ma, Xiaosong Wang,他们分别来自上海交通大学、上海创新研究院、复旦大学和上海人工智能实验室。通讯作者是Xiaosong Wang。
    • GRPO算法的提出者:如DeepSeek-AI 或Shao et al. (论文中GRPO引用指向这两篇,可能是同一工作或相关工作)。
    • 相关医学VLM和RL研究的团队:如开发Med-R1 (Lai et al.) 和MedVLM-R1 (Pan et al.) 的研究者,以及开发HuatuoGPT-Vision (Chen et al.) 的团队。
    • 相关数据集的创建者:如VQA-RAD, SLAKE, PathVQA, PMC-VQA, MMMU, Quilt-VQA, MedXpertQA 等。

二、论文提出的新思路、方法或模型及其关键与优势

  1. 新的思路、方法或模型:MedCCO框架 论文提出了MedCCO,这是一个多模态医学推理框架,它扩展了GRPO算法,并采用课程驱动的强化学习范式来统一处理封闭式和开放式医学VQA任务。

    • 骨干学习框架 (Backbone Learning Framework - Section 3.1)

      • 基于组相对策略优化 (Group Relative Policy Optimization, GRPO) 。GRPO是一种与PPO 相似的RL算法,但有两个关键区别:(1) GRPO在无价值函数(value-free)机制下运行,通过组内相对奖励计算广义优势估计(GAE);(2) 它使用可验证的、基于规则的结果作为奖励,而不是依赖预训练的奖励模型
      • 训练时,模型为每个输入生成G个候选响应,每个响应根据规则标准获得标量奖励ri。优势Ai通过组内奖励的均值和标准差进行归一化 。GRPO的目标函数LGRPO(θ)包含一个KL散度正则项,以惩罚与参考策略πref的偏离
    • 多重奖励策略 (Multi-reward Policy - Section 3.2)

      • 为有效指导RL并防止奖励“作弊”(reward hacking),设计了针对正确性、语义对齐和格式依从性的多维度奖励模式。
      • 封闭式奖励 ():二元奖励,预测答案o与真实答案g完全匹配则为1,否则为0
      • 开放式奖励 ():混合奖励函数,结合了评估词汇重叠的BLEU-1和ROUGE-1,以及评估语义相似性的BERTScore。通过λ参数权衡词汇和语义指标
      • 格式奖励 ():检查输出是否符合要求的标签结构(如推理内容在<think>...</think>内,答案在<answer>...</answer>内)
      • 总奖励,其中R是任务特定的奖励(RcloseRopen
    • 联合强化学习训练策略 (Joint Reinforcement Learning Training Strategies - Section 3.3)

      • 课程GRPO (Curriculum GRPO):这是MedCCO的核心策略。模型首先在封闭式问题上使用GRPO进行训练,以建立稳定的策略和基础推理能力。随后,在开放式数据上进行微调,以促进更高级的推理和知识检索 。这种从易到难的渐进式训练方案旨在稳定学习过程并持续提升推理性能。
      • 直接联合GRPO与梯度重加权 (Direct joint GRPO via gradient re-weighting):作为对比策略,该方法同时在封闭式和开放式任务上进行优化。由于两类任务奖励结构不同(离散vs连续)导致梯度方差特性不同,该方法通过对小批量中两类任务的平均梯度进行加权(基于各自的批大小比例α)来平衡它们的贡献 。实验表明课程GRPO优于此方法。
    • VQA数据质量优化 (VQA Data Quality Refinement - Section 3.4)

      • 在使用开放式VQA数据进行GRPO之前,执行VQA一致性检查和优化
      • 观察到当前开放式医学VQA数据集中问题和答案之间存在粒度不一致的问题(例如,问题“图像是如何拍摄的?”的答案可能是“CT”或“轴向”,特异性不同,引入模糊性)
      • 为此,实现了一个VQA一致性审计器 (VQA-Consistency Auditor)(使用Qwen2.5-VL-72B ),根据三个核心原则优化嘈杂的VQA对:(1) 一致性评估(确保问题全面捕捉答案的语义内容);(2) 开放式强制执行(保持自由形式措辞以支持描述性输出);(3) 粒度匹配(对齐问题的特异性与答案,减少过度或不足的泛化)
  2. 解决方案之关键

    • 课程学习范式:从简单的封闭式任务过渡到复杂的开放式任务,有助于模型稳定地建立和增强推理能力,避免了直接处理复杂任务可能导致学习不稳定的问题。
    • 统一框架:首次将封闭式和开放式医学VQA任务整合到一个统一的多模态推理框架中进行强化学习。
    • GRPO的有效利用:GRPO算法的无价值函数和基于规则的奖励特性,使其适合于这类需要可验证输出的任务,并避免了训练额外奖励模型的复杂性。
    • 针对性的奖励设计:为封闭式和开放式任务分别设计奖励函数,并加入格式奖励,能够更精确地引导模型行为。
    • 数据质量的关注:通过VQA一致性审计器对开放式数据进行预处理,提高了训练数据的质量,从而提升了RL的效率和效果。
  3. 跟之前的方法相比有什么特点和优势?

    • 处理任务范围更广:MedCCO能够同时处理封闭式和开放式医学VQA,而现有医学VLM的RL方法多局限于封闭式任务。
    • 推理能力更强,泛化性更好:课程学习策略和开放式数据的引入,旨在培养模型更深层次的推理能力和知识检索能力,从而在域内和域外测试中均表现出更好的性能和泛化性。
    • 无需人工CoT标注:通过RL,模型可以自主学习构建结构化的推理链,而不需要依赖昂贵且难以获取的高质量长思维链(CoT)人工标注。
    • 训练更稳定有效:课程学习策略有助于缓解因任务类型和奖励结构差异(如离散奖励与连续奖励的梯度冲突)导致的训练不稳定问题。VQA数据优化也提升了训练效率。

三、论文实验设计

  1. 实验设计

    • 训练数据集:使用了三个公开的医学VQA数据集:VQA-RAD, SLAKE (英文部分), 和 PathVQA ,共提供约14,379个封闭式和12,996个开放式问答对,总计约2.7万个训练样本
    • 评估基准
      • 域内(In-domain)测试集:VQA-RAD, SLAKE, PathVQA的官方测试集
      • 域外(Out-of-domain)测试集:PMC-VQA, MMMU的健康与医学部分, Quilt-VQA (用于开放式问题), MedXpertQA (MM部分,强调复杂医学推理)
      • 跨模态泛化评估:使用SLAKE数据集,在单一模态(X-ray, MRI, CT)上训练模型,并在所有三种模态的测试集上进行评估
      • 补充实验:在OmniMedVQA 数据集上进行了评估(见附录A,表5)
    • 基线模型 (Baselines)
      • 通用VLM:Yi-VL, LLaVA-v1.6 (不同尺寸), Qwen2.5-VL
      • 医学VLM:Med-Flamingo, RadFM, LLaVA-Med, HuatuoGPT-Vision
      • 微调VLM:Qwen2.5-VL (SFT) 和 Qwen2.5-VL (vanilla GRPO,在封闭式和优化后的开放式数据上训练)
    • MedCCO实现细节
      • 骨干模型:Qwen2.5-VL-7B-Instruct及其3B变体
      • 训练硬件:4xH100 GPUs (80GB VRAM)
      • 框架:使用verl 进行GRPO实验,LLaMAFactory 进行SFT实验
      • 超参数:总批大小64,学习率1e6,KL惩罚系数,开放式奖励中,总奖励中 。GRPO训练1个epoch,约8小时
    • 消融研究 (Ablation Study):在OmniMedVQA, MedXpertQA, MMMU Health & Medicine的平均性能上,研究了模型大小(3B vs 7B)、VQA数据优化(有无)和微调类型(SFT, GRPO, 联合GRPO, 课程GRPO)的影响
  2. 实验数据和结果

    • 主要性能对比 (Table 2)
      • MedCCO-7B在多个医学VQA基准上取得了SOTA性能,域内平均准确率62.3%,域外41.7%
      • 在11个子任务中的8个上优于现有通用和领域特定基线
      • 与次优模型HuatuoGPT-Vision-8B相比,MedCCO在域内准确率上提升11.6%,并在MedXpertQA和Quilt-VQA等新任务上展现更强泛化能力
    • MMMU基准表现 (Table 3)
      • MedCCO-7B在MMMU健康与医学部分达到59.3%的最高总体准确率,超过所有通用、医学特定和微调VLM
      • 显著超过HuatuoGPT-Vision-8B(后者准确率约49.1%),尽管后者训练数据量远大于MedCCO(1M vs 27k)
    • 跨模态泛化能力 (Figure 2, SLAKE数据集)
      • MedCCO-7B在所有单一模态训练、跨模态评估场景中均一致优于Qwen2.5-VL (GRPO)
      • 在最具挑战性的X-ray训练 -> MRI & CT评估场景下,MedCCO在MRI上准确率达92.7%,CT上达72.5%,均取得最佳结果
    • 消融研究结果 (Table 4, Figure 3)
      • 模型大小:7B模型一致优于3B模型。课程GRPO对两种大小模型均带来稳定提升(域内3B:3.9%, 7B:2.0%;域外3B:2.9%, 7B:5.2%)
      • VQA优化:加入VQA一致性优化后,3B模型在域内和域外测试集上分别提升2.5%和3.1%;7B模型分别提升3.9%和1.2%。该优化使训练更稳定,泛化性更好
      • 微调类型:基于GRPO的微调在域外测试集上一致优于SFT,展现更强泛化能力。SFT在域内略好,因其擅长学习训练分布内的输入输出映射。GRPO鼓励推理和路径探索,而非直接映射,因此对未知场景更鲁棒
      • 课程GRPO vs. 联合GRPO:课程GRPO在3B和7B模型上,无论域内还是域外,均一致优于直接联合训练。这归因于课程学习缓解了封闭式(离散奖励,梯度更新较剧烈)和开放式(连续奖励,梯度较平滑)任务间的奖励冲突和梯度不平衡问题
    • 定性分析 (Figure 4):展示了MedCCO在开放式和封闭式任务中的推理案例。开放式案例中,模型能准确识别解剖结构和生理功能(如X光片中的肺及其呼吸功能,CT中的肾脏)。封闭式案例中,模型能结合MRI和CT信息为肩部肿块选择手术切除作为下一步处理,并提供多模态证据支持
  3. 对科学假设的支持 是的,实验结果有力地支持了论文的科学假设

    • MedCCO通过课程驱动的RL范式,在统一框架下结合封闭式和开放式VQA任务进行训练,确实在多个域内和域外医学VQA基准上取得了SOTA性能,显著优于仅SFT、仅GRPO或直接联合GRPO的策略。
    • 消融研究明确显示了课程学习策略对于缓解任务间冲突、稳定训练和提升泛化能力的重要性。
    • VQA数据优化步骤也对性能提升做出了贡献。
    • 模型确实展现了在不依赖人工CoT标注的情况下,进行医学推理和知识检索的能力。 这些都证明了MedCCO作为一个结合课程学习与强化学习的医学VLM框架的有效性。

四、论文贡献

  1. 论文贡献

    • 提出MedCCO框架:首次提出了一个能够在一个统一框架内处理封闭式和开放式医学VQA任务的多模态医学推理模型
    • 创新的课程强化微调策略:探索并验证了一种课程强化微调(Curriculum RFT)策略,使VLM能够从简单任务学习到复杂任务,同时保留先前习得的知识
    • SOTA性能验证:在多个域内和域外医学VQA数据集上进行了广泛实验,证明MedCCO达到了SOTA性能,并在某些基准上匹配甚至超越了参数量远大于它的模型
    • VQA数据优化方法:提出并应用了VQA一致性审计器来优化开放式VQA数据质量,提升了RL训练的稳定性和效果
  2. 给业界带来的影响

    • 推动医学VLM向更高级推理发展:MedCCO展示了通过RL和课程学习,可以使医学VLM不仅仅停留在基础的视觉识别和简单问答,而是向更复杂的、需要深度知识和灵活推理的临床应用场景迈进。
    • 为开发临床适应性AI系统奠定基础:该工作为开发能够支持灵活、上下文感知推理的临床适应性AI系统提供了基础,推动AI从遵循固定答案格式向更细致、更类人的医学理解方向发展
    • 降低对高质量CoT标注的依赖:MedCCO通过RL自主学习推理路径,减少了对昂贵且难以获取的人工思维链(CoT)标注的需求,这对于大规模训练和部署更高级的医学AI模型具有重要意义。
    • 启发通用VLM/LLM的训练范式:课程学习与RL结合的思路,以及处理不同类型任务(封闭式/开放式)和奖励信号冲突的策略,对于通用领域VLM和LLM的训练也具有借鉴意义。
  3. 潜在的应用场景和商业机会

    • 智能医学影像辅助诊断系统:集成MedCCO能力的系统可以辅助医生解读医学影像(如X光、CT、MRI、病理切片),不仅能回答关于影像的具体封闭式问题(例如,“病灶在哪里?”),还能生成开放式的分析和解释(例如,“这个影像主要显示了什么解剖结构及其功能?”或“基于影像和病史,最可能的诊断是什么及其理由?”)。
    • 医学教育与培训工具:开发基于MedCCO的交互式教学工具,医学生可以通过提问不同类型的问题来学习医学影像判读和临床推理。
    • 自动化临床报告生成与摘要:利用模型对影像的深度理解和开放式文本生成能力,辅助生成或校验影像报告、病理报告等。
    • 医疗VQA服务平台:提供基于云的医疗VQA API服务,允许第三方开发者将其集成到自己的医疗应用或工作流程中。
    • 高质量医学VQA数据集的构建与增值服务:论文中提到的VQA数据优化方法,可以启发构建更高质量、更一致的医学VQA数据集,这本身就具有商业价值。
  4. 作为工程师的我应该关注哪些方面?

    • 强化学习(RL)特别是GRPO算法:理解GRPO这类在LLM/VLM中应用的RL算法原理、实现细节及其与PPO等其他算法的区别和优势
    • 课程学习(Curriculum Learning):学习如何设计从易到难的任务序列,以及如何在RL框架中有效地实施课程学习,以稳定训练并提升模型性能和泛化能力
    • 多任务与多奖励RL:如何在一个RL框架中处理多种类型的任务(如封闭式和开放式VQA),以及如何设计和平衡不同任务或不同方面的奖励信号(如准确性奖励、语义相似性奖励、格式奖励)
    • 视觉语言模型(VLM)的架构与微调:熟悉当前主流VLM的架构(如基于Transformer的编码器-解码器结构),以及SFT和RFT(特别是LoRA等参数高效微调方法)的技术细节。
    • 数据预处理与质量控制:对于医学VQA任务,输入数据(影像和问题)的质量至关重要。学习如何进行数据清洗、一致性检查和优化(如论文中的VQA一致性审计器)
    • 评估指标与基准:了解医学VQA领域常用的基准数据集(如VQA-RAD, SLAKE, PathVQA, MMMU等)和评估指标(准确率、BLEU, ROUGE, BERTScore等)
    • 高效训练与推理工具:熟悉用于加速LLM/VLM训练和推理的工具与框架,如verl (RL框架), LLaMAFactory (SFT框架), vLLM (推理部署), FlashAttention-2 (计算效率优化)

五、值得进一步探索的问题和挑战

  1. 值得进一步探索的问题和挑战 (主要来自论文结论部分)

    • VLM在医学推理中的固有局限性:使VLM能够执行准确推理仍然很困难,这源于其在视觉感知、领域特定知识方面的限制,以及产生幻觉的倾向
    • 开放式数据RL的挑战:与具有预定义答案选项的封闭式问题相比,使用开放式数据进行强化学习更具挑战性
    • 推理质量的自动评估:如何自动评估模型生成推理过程的质量,仍然是一个悬而未决的问题
    • 提升视觉感知精度:进一步提高模型对医学影像中细微病灶和复杂结构的感知能力。
    • 增强领域特异性知识的融合与应用:如何更有效地将大量、动态更新的医学知识融入VLM,并使其能在推理中灵活运用。
    • 减少与控制模型幻觉:特别是在高风险的医疗领域,如何最大限度地减少模型产生不符合事实或误导性信息的幻觉。
    • 多模态信息融合的深化:不仅仅是图像和文本,未来可能需要融合更多模态信息(如EHR结构化数据、基因组数据等)进行综合推理。
  2. 可能催生出什么新的技术和投资机会?

    • 高级医学推理VLM的商业化:基于MedCCO这类框架训练出的、具有强大开放式和封闭式推理能力的医学VLM,可以作为核心技术打包成商业解决方案,应用于临床辅助诊断、医学影像分析等。
    • 自动化医学VQA数据增强与优化平台:如论文中VQA一致性审计器所展示的,可以开发更智能的工具或平台,用于自动化地清洗、优化和增强医学VQA训练数据,提高数据质量。
    • 可解释性医学AI的研发:结合MedCCO产生的推理过程(<think>标签内的内容),开发更具可解释性的医学AI系统,帮助医生理解AI的决策逻辑,建立信任。
    • 针对特定医疗场景的VLM定制与微调服务:为不同的临床科室或特定疾病的诊疗需求,提供定制化的VLM模型微调和优化服务。
    • RL在医疗AI中的标准化工具与框架:随着RL在医疗AI中应用的深入,可能会出现对标准化、易用、高效的RL训练和评估工具(如verl的进一步发展和推广)的需求。
    • 医学知识图谱与VLM的深度融合:通过将结构化的医学知识图谱与VLM的感知和推理能力相结合,有望进一步提升模型推理的准确性和深度。

六、论文存在哪些不足及缺失

  1. 论文存在的不足及缺失

    • 对“推理能力”的定义和度量较为依赖任务表现:虽然论文旨在提升“医学推理能力”,但对“推理”本身的定义以及如何独立于特定VQA任务的准确率来度量推理过程的质量和深度,着墨不多。生成的<think>内容是否真正反映了类似人类的推理过程,还是仅仅是另一种形式的模式匹配,有待商榷。
    • VQA数据优化模块的依赖性:开放式VQA数据的优化依赖于另一个大型VLM(Qwen2.5-VL-72B)。这引入了一个额外的复杂性和潜在的依赖性,即“审计员”模型的性能会直接影响用于训练MedCCO的数据质量。
    • 奖励函数设计的复杂性与调参:开放式奖励函数Ropenλ参数的选择,以及总奖励中γ参数的选择,可能会对模型学习产生显著影响。论文中提到了这些参数的值,但对其选择的敏感性分析或更系统的调优过程讨论不足。
    • 对“幻觉”问题的讨论和缓解措施有限:虽然结论中提到了VLM有产生幻觉的倾向是挑战之一 ,但在方法和实验部分,除了RLHF被提及用于缓解幻觉外,MedCCO框架本身如何具体应对或量化幻觉问题,讨论较少。
  2. 需要进一步验证和存疑之处

    • 课程学习中任务顺序和切换节点的选择:MedCCO采用先封闭式后开放式的课程。这种顺序的必要性和最优性如何?是否存在更优的课程设计,例如逐步增加开放式任务的比例,或者在不同类型的封闭式任务之间也设置课程?切换阶段(从封闭式到开放式)的时机如何确定?
    • 在真实临床数据和场景下的表现:实验主要基于公开的VQA数据集。这些数据集可能与真实临床环境中的影像质量、问题表述、以及所需知识的复杂性存在差异。MedCCO在真实、原始的临床数据和实际工作流程中的表现如何,有待验证。
    • 模型输出的可解释性与临床医生的接受度:虽然模型被引导生成<think>内容,但这些内容是否真正为临床医生提供了有价值、可理解的决策依据?医生在多大程度上信任和接受基于这种推理的建议?这需要进一步的人机交互研究和临床评估。
    • 对模型偏见(bias)的考量:训练数据(即使是公开数据集)可能隐含各种偏见(如人群、疾病分布等)。MedCCO框架是否会放大或缓解这些偏见,以及如何评估和校正模型输出中的潜在偏见,是临床应用前必须考虑的问题。
    • 计算资源需求与可扩展性:使用GRPO进行RL训练,尤其是对于大型VLM和包含数万样本的数据集,可能需要大量的计算资源(论文使用了4xH100 GPU训练约8小时一个epoch )。其训练成本和可扩展性对于资源有限的机构可能是一个障碍。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: