M4CXR:探索多模态大型语言模型 (Multi-modal Large Language Models) 在胸部 X 射线解释方面的多任务潜力视觉语言模型 (VLM) 在医学任务中具有巨大潜力,例如视觉问答 (VQA),它们可以充当患者和临床医生的交互式助手。然而,它们对未见数据的分布偏移的鲁棒性仍然是安全部署的关键问题。评估这种鲁棒性需要一个受控的实验设置,以便系统地了解模型的行为。然而,我们证明当前的设置未能提供足够 thorough 的评估,限制了它们准确评估模型鲁棒性的能力。为了解决这一差距,我们的工作引入了一个名为 SURE-VQA 的新框架,该框架围绕三个关键要求来克服当前的陷阱并系统地分析 VLM 的鲁棒性:1) 由于基于合成偏移的鲁棒性不一定能反映模型在现实世界偏移下的表现,因此应基于 VQA 数据中固有的实际偏移来衡量鲁棒性;2) 传统的 Token 匹配指标通常无法捕获底层语义,因此需要使用大型语言模型 (LLM) 进行更准确的语义评估;3) 由于缺少健全性基线,模型性能通常缺乏可解释性,因此应报告有意义的基线,以便评估多模态对 VLM 的影响。为了证明该框架的相关性,我们对各种参数微调 (Fine-Tuning) 方法在具有四种不同类型分布偏移的三个医学数据集上的鲁棒性进行了研究。我们的研究揭示了几个重要的发现:1) 不利用图像数据的健全性基线可以表现得非常好;2) 我们确认 LoRA (Low-Rank Adaptation) 是性能最佳的参数高效微调 (PEFT) 方法;3) 就对偏移的鲁棒性而言,没有一种 PEFT 方法始终优于其他方法。代码可在 https://github.com/IML-DKFZ/sure-vqa 获得。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: