HuatuoGPT-Vision：面向大规模医学视觉知识的多模态大型语言模型

以 GPT-4V 为代表的多模态大型语言模型（MLLM）发展迅速，并在多个领域取得了显著进步。然而，由于医疗数据隐私问题和高昂的标注成本，高质量医学图像文本数据的匮乏限制了 MLLMs 在医疗多模态任务上的表现。虽然一些方法尝试利用 PubMed 中大规模、去识别化的医学图像文本对来解决数据限制问题，但其效果仍受限于数据噪声。为了解决这一难题，我们对 PubMed 中的医学图像文本对进行了精细化处理，并采用“非盲”方式利用 MLLM（GPT-4V）对数据进行去噪和格式化，最终构建了包含 130 万个医学视觉问答（VQA）样本的 PubMedVision 数据集。验证结果表明：(1) PubMedVision 能够显著提升现有 MLLMs 的医学多模态能力，在 MMMUHealth&Medicine 等基准测试中取得了明显进步；(2) 医学专家的人工评估和实证结果均表明，相较于其他数据构建方法，PubMedVision 数据集的质量更胜一筹。基于 PubMedVision 数据集，我们训练了一个 340 亿参数的医学 MLLM 模型——HuatuoGPT-Vision，该模型在医学多模态场景下展现出优于其他开源 MLLMs 的性能。

1. 研究目标

论文“HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale”的研究目标是在大规模医疗视觉-文本数据的基础上，构建高质量的医疗多模态数据集，以提升多模态大语言模型（MLLMs）在医疗领域的应用能力。

实际问题

论文想要解决的主要问题是现有医疗多模态数据在数量和质量上的不足，以及由此导致的MLLMs在医疗领域表现不佳的问题。具体表现为医疗图像-文本数据存在隐私保护、标注成本高、数据噪声大等问题，限制了模型在医疗多模态任务中的表现。

是否是新问题

这是一个相对新的问题，因为随着医疗信息化和AI技术的不断发展，将高质量的医疗视觉知识融入MLLMs以提高其医疗领域的应用能力，成为了当前研究的热点和难点。

对产业发展的重要意义

解决上述问题对于医疗AI产业的发展具有重要意义。高质量的医疗多模态数据集不仅能够提升现有模型的性能，还能推动新的医疗AI产品和服务的研发，如智能医疗影像诊断系统、医疗问答系统等，进而提升医疗服务效率和准确性，造福广大患者。

2. 新的思路与方法

高质量数据筛选与重构：论文提出了利用GPT-4V等MLLMs对PubMed中的医疗图像-文本数据进行“去盲化”重构，生成高质量的视觉问答（VQA）数据对，构建了PubMedVision数据集。
多场景VQA数据生成：设计了多种对话场景模板，引导MLLMs生成更加多样化和贴近实际应用的VQA数据，以增强模型的指令遵循能力和图像理解能力。
HuatuoGPT-Vision模型：基于PubMedVision数据集，训练了一个34B参数的医疗多模态大语言模型HuatuoGPT-Vision，该模型在医疗多模态任务中表现出色。

解决方案的关键

解决方案的关键在于利用MLLMs对医疗图像-文本数据进行去噪和重构，生成高质量、大规模的医疗VQA数据集，从而为模型训练提供更加丰富和准确的数据支撑。

特点与优势

数据质量高：通过MLLMs的重构，有效去除了原始数据中的噪声，提高了数据的质量和相关性。
数据规模大：PubMedVision数据集包含130万条医疗VQA样本，是目前已知的最大规模医疗多模态数据集之一。
场景多样化：设计了多种对话场景模板，使得生成的VQA数据更加多样化和贴近实际应用，增强了模型的泛化能力。

3. 实验设计

论文通过以下实验来验证所提出方法的有效性：

基准模型对比实验：将使用PubMedVision数据集训练的模型与使用其他数据集训练的模型进行对比，评估模型在医疗VQA基准测试集上的表现。
多模态基准测试：在MMMU Health&Medicine等多模态基准测试集上评估模型的性能。
传统医疗影像任务评估：在OmniMedVQA等传统医疗影像任务上评估模型的性能。

实验数据与结果

医疗VQA基准测试：实验结果显示，使用PubMedVision数据集训练的模型在VQA-RAD、SLAKE、PathVQA、PMC-VQA等基准测试集上的表现均优于其他模型，整体准确率提升了11.7%。
多模态基准测试：在MMMU Health&Medicine基准测试集上，模型表现出色，与更大参数的通用模型相当。
传统医疗影像任务评估：在OmniMedVQA任务上，模型性能显著提升，证明了其在传统医疗影像任务中的适用性。