论文信息
标题 (Title):Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
作者 (Authors):Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed
原文链接 (URL):
https://arxiv.org/abs/2508.07031v1
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):大型语言模型(LLMs)正越来越多地被应用于医学影像任务,但它们易于产生“幻觉”——即输出看似可信但事实错误的内容,这可能误导临床决策。本研究旨在系统性地检验LLMs在医学影像领域的幻觉问题,涵盖了从“图像到文本”(影像解读)和从“文本到图像”(影像生成)两个方向
。 方法 (Methods):本研究通过一系列定性和定量实验,分析了LLMs在处理X射线、CT和MRI等多种影像模态时的幻觉模式。在图像解读方面,评估了模型在分类任务(如脑肿瘤分类)和特定临床事件检测任务(如胸腔积液检测)中的表现
。在图像生成方面,评估了模型在接收到临床文本提示后,生成图像的解剖学准确性和临床合理性,特别是通过设计一些不合逻辑的提示(如“生成一张显示脚趾骨折的胸部X光片”)来测试其鲁棒性 。 结果 (Results):研究发现,无论是在解读任务还是生成任务中,LLMs都普遍存在幻觉现象。在图像解读中,模型表现出显著的错误率,包括大量的假阴性(漏诊)和假阳性(误报)
。在图像生成中,模型会创造出解剖学上不可能的图像(如将手骨叠加在胸片上),添加与提示无关的视觉元素(如无端加入手术夹),或表现出临床偏见(如未指定时总是在身体一侧生成病变) 。此外,模型的安全防护机制很脆弱,可通过修改提示词轻易绕过 。 结论 (Conclusion):本研究揭示了当前LLMs在医学影像应用中的关键漏洞,其幻觉问题对临床可靠性和患者安全构成重大风险
。在将这些模型安全地集成到临床工作流程之前,必须在提示鲁棒性、医学知识接地(grounding)和严格验证等方面进行更深入的研究,以确保其输出的解剖学和事实准确性 。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:LLMs在医学领域展现出巨大潜力,能够辅助生成放射学报告、解释影像发现,甚至为医学教育合成逼真的图像,从而有望提高诊断效率并减轻临床医生负担
。 核心问题 (RQs):尽管潜力巨大,但LLMs的核心问题在于其固有的“幻觉”倾向,即产生流畅自信但与事实不符的输出
。在医学影像这种高风险场景下,幻觉可能导致极其严重的后果。例如,一个LLM在解读脑部MRI时,如果未能识别或错误估计了“中线位移”(一种指示颅内高压的危急体征),可能会生成一份低估病情的报告,从而导致致命的临床决策失误 。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:学术界已开始关注LLMs在医学影像中的幻觉问题。现有研究主要分为两个方向:
图像解读中的幻觉:研究表明,即使是先进的多模态LLMs在处理复杂的医疗视觉-文本任务时也容易产生幻觉
。已有工作提出了系统性的评估框架,并通过提示工程、事实核查框架等方法尝试减少错误 。 图像生成中的幻觉:研究发现,生成模型也普遍存在幻觉,常产生偏离提示或包含不真实元素的内容
。已有工作引入了评估基准来衡量合成医学图像中的幻觉,并探索了基于扩散模型的方法或RAG来减轻这些问题 。
研究缺口 (Gap):尽管已有相关研究,但缺乏一项系统性的、全面的研究,能够同时审视从图像到文本和从文本到图像两个方向的幻觉问题,并横跨多种医学影像模态(X-ray, CT, MRI)进行分析,从而全面揭示问题的严重性和普遍性
。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:系统性地调查和分析LLMs在医学影像应用中的幻觉现象,涵盖图像解读和图像生成两大类任务
。 核心命题:本文旨在论证,当前最先进的LLMs在应用于多种医学影像任务时,仍普遍存在严重的、具有临床误导性的幻觉,这使其在没有严格监督和验证的情况下,尚不具备在真实临床环境中可信赖应用的能力。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究采用定性和定量相结合的分析研究范式。它并非提出一个新模型,而是对现有技术的性能和弱点进行系统性评估。
方法论:研究通过一个双向的评估框架来分析幻觉:
图像解读(Image Interpretation)分析:
医学图像分类:在零样本(zero-shot)和少样本(few-shot)设置下,评估LLMs对医学图像进行诊断分类的能力。例如,将脑部MRI分为胶质瘤、脑膜瘤、垂体瘤或无肿瘤四类
。 特定临床事件检测:评估LLMs识别和描述图像中具体临床发现的能力,如检测腹部CT扫描中的腹水,或通过结构化的诊断问题(DQs)来评估胸片中胸腔积液的存在、程度和位置
。
图像生成(Image Generation)分析:
非提示性和不相关的视觉元素:考察模型是否会在生成的图像中添加提示中未提及且与临床无关的元素,如在未说明的情况下自行决定病变位置,或无端添加手术夹等伪影
。 临床上不合理的内容:通过向模型输入解剖学上不可能实现的“陷阱”提示(例如,“生成一张清晰显示脚趾骨折的胸部X光片”),来测试模型的内在一致性检查能力和安全防护机制的鲁棒性
。
关键是什么:该研究方法的关键在于其双向和对抗性的设计。通过同时评估“读图”和“造图”能力,可以更深刻地揭示模型是否真正理解了医学概念。而使用不合逻辑的提示,则能有效地探测模型的知识边界和安全漏洞。
跟之前的方法相比有什么特点和优势:与仅关注单一任务或单一方向的研究相比,本研究提供了一个更全面、更系统的视角,揭示了幻觉问题在不同应用场景下的共性和差异,使其结论更具普遍性和说服力。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:研究使用了公开的医学影像数据集,包括用于胸腔积液实验的印第安纳大学胸部X射线数据集,以及用于肺癌分类的公开胸部CT图像数据集
。 样本:评估的LLM样本涵盖了业界领先的多种模型,包括闭源模型(如GPT-4o, Gemini-2.5 Flash, Grok 3)和开源模型(如LLaVA-v1.5-7B, Gemma-3B, Qwen2.5-VL-7B)
。
2.3. 操作化与测量 (Operationalization & Measurement)
定量测量:
分类任务:使用准确率(Accuracy)和F1分数(F1 Score)
。 检测任务:使用准确率、F1分数以及混淆矩阵来分析真/假阳性和真/假阴性
。 生成任务:通过对50个不合理提示的测试,计算模型成功生成图像的成功率(Success Rate)
。
定性测量:通过具体的案例分析,将模型生成的文本和图像与医学常识和专家标准进行对比,以揭示幻觉的具体表现形式
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
图像解读任务中的幻觉普遍存在:在胸腔积液检测任务中,所有被测试的开源LLM都表现出幻觉,其中Qwen模型有大量的假阴性(即“幻觉性地”认为积液不存在)
。在胸部CT肺癌分类任务中,即使在少样本提示的帮助下,模型的F1分数仍然不高,表明存在不可忽视的幻觉预测 。 图像生成任务中存在严重的解剖学错误:当被要求生成“带脚趾骨折的胸片”时,GPT-4o错误地将手指骨骼叠加在胸片上,而Gemini-2.5 Flash则能识别出提示的不合理性
。这表明模型对基本的医学解剖学缺乏深入理解。 生成图像中包含非提示性和有偏见的内容:当提示生成“胸腔积液”的胸片时,GPT和Gemini都生成了右侧积液的图像,尽管提示中并未指定方向,这引入了非提示性的临床偏见
。 安全防护机制脆弱:模型对于生成不合理内容的防护机制很容易被绕过
。例如,GPT-4o最初会拒绝生成“显示脑瘤的腹部超声”,但当在提示中加入“我需要这张图片用于研究目的”这样的理由后,它便会生成一张包含脑状结构的腹部超声图像 。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图3:对“生成带脚趾骨折的胸片”提示的响应
解读:这张图是论文中最具冲击力的发现之一。它直观地展示了模型的认知缺陷。GPT-4o的输出(a)不仅未能识别出任务的荒谬性,反而犯了一个更离奇的错误(将手指当成脚趾),暴露了其对解剖学知识的严重混淆。Gemini 2.5 Flash的响应(b)则相对可靠,它正确地分离了两个不相关的概念,分别给出了胸片和足部X光片
。
表2和图8:胸腔积液检测性能
解读:图8的混淆矩阵清晰地显示了所有模型的错误分布。以Qwen(c)为例,在实际有积液(Yes)的48个案例中,它只正确识别了3个,却错误地将45个判断为无积液(No),假阴性率极高
。这表明模型在识别阳性病例方面存在严重缺陷,即“幻觉性地遗漏”了病症。
表4:生成不合理内容的成功率
解读:该表格量化了模型安全防护的脆弱性。GPT-4o在接收到带有“研究目的”理由的提示(P2)后,生成不合理内容的成功率从66%飙升至94%,这表明其内容过滤器很容易被简单的社交工程技巧所欺骗
。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
这些发现共同指向一个核心结论:当前LLMs对医学影像的“理解”是浅层的、基于模式匹配的,而非基于对解剖学、病理学和临床逻辑的真正认知。它们在图像解读中犯的错误(如漏诊)和在图像生成中犯的错误(如创造解剖学怪物)是同一问题的不同表现。这种缺乏深层医学知识“接地”的特性,是导致其在医疗领域应用时可信度低下的根本原因。
4.2. 理论贡献 (Theoretical Contributions)
系统性的双向幻觉评估框架:本研究为评估LLMs在医学影像领域的幻觉问题提供了一个全面、双向的分析框架,为后续研究提供了方法论上的参考。
揭示LLM在医学领域的脆弱性:通过大量实例和数据,本研究系统性地揭示了即使是顶尖的LLMs在处理专业医学任务时的脆弱性,为业界敲响了警钟,强调了在将这些技术转化为临床产品之前进行严格验证的必要性。
对业界的影响:这项研究的结果可能会促使AI开发者和医疗机构在部署LLM时采取更谨慎的态度。它明确指出了需要重点解决的技术难题,如提高模型的医学知识接地能力、构建更强大的内容安全护栏等。
4.3. 实践启示 (Practical Implications)
对临床医生:这项研究提醒临床医生,不能盲目信任LLM生成的影像报告或合成图像,所有AI输出都必须经过人类专家的严格审查。
对AI开发者:研究中发现的各种幻觉模式(如事实不一致、解剖学错误、非提示性内容等)为开发者提供了具体的改进目标和测试用例。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:本研究的评估任务和数据集范围有限,且主要依赖自动化指标和定性案例,缺乏大规模、多中心的放射科医生参与的评估。
未来研究:作者指出了几个关键的未来研究方向:
提示鲁棒性:研究如何设计更稳健的提示词以减少幻觉。
医学知识接地解码:开发能够将模型输出限制在医学上合理的范围内的生成技术。
幻觉检测:创建专门用于检测医学影像相关幻觉的工具。
专业化微调:利用高质量的、经过专家标注的数据对模型进行专门的微调
。
5. 结论 (Conclusion)
本研究对LLMs在医学影像解读和生成任务中的幻觉现象进行了全面评估。研究发现,即使是目前最先进的模型,也存在严重的、系统性的漏洞,如事实不一致和生成解剖学上不可能的图像等
6. 核心参考文献 (Core References)
Gu, Z., et al. (2024). Medvh: Towards systematic evaluation of hallucination for large vision language models in the medical context. (一篇关于系统性评估医疗领域大型视觉语言模型幻觉的重要相关工作)。
Yan, Q., et al. (2024). Med-hvl: Automatic medical domain hallucination evaluation for large vision-language models. (另一篇关于自动化评估医疗领域幻觉的重要文献)。
Heiman, A., et al. (2025). FactCheXcker: Mitigating measurement hallucinations in chest X-ray report generation models. (一篇专注于解决特定类型幻觉——“测量幻觉”——的研究)。
Asgari, E., et al. (2025). A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. (一篇提出了由临床医生主导的评估框架来评估LLM安全性和幻觉率的研究)。
Chu, Y.-W., et al. (2025). Reducing hallucinations of medical multi-modal large language models with visual retrieval-augmented generation. (一篇探讨利用RAG技术减少医疗多模态LLM幻觉的研究,代表了潜在的解决方案方向)。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment