Digital Health Insider: SkinCAP：一个包含丰富医学标注的多模态皮肤病学数据集

皮肤病是全球第四大常见疾病，影响着约三分之一的全球人口，给全球健康带来了沉重负担。近年来，人工智能 (AI)，尤其是深度学习 (DL) 和基于视觉的大型语言模型 (VLLMs)，已广泛应用于皮肤病诊断领域。这些技术正越来越多地用于皮肤病分类和皮肤病变分割等任务。

然而，目前皮肤病分类领域的研究主要集中在仅凭图像视觉信息对皮肤病进行分类，而忽略了对这些疾病的医学特征和临床描述的关注。这种忽视严重限制了现有方法在皮肤病诊断中的可解释性。SkinGPT-4是目前唯一一个利用包含 VLLMs 的大规模多模态数据集进行训练的皮肤病评估方法。SkinGPT-4 不仅能够提供皮肤病图像的描述，还能以自然语言与用户进行交互。然而，由于隐私问题，SkinGPT-4 使用的专有数据无法公开，阻碍了该领域开源研究的进展。

虽然目前已有一些公开数据集，如 ISIC、Dermnet、XiangyaDerm 、Fitzpatrick 17k 和 Diverse Dermatology Images (DDI) ，但它们主要提供简单的分类标签，缺乏全面的医学描述（表 1）。SKINCON 是唯一一个由皮肤科医生使用 48 个临床概念进行密集标注的公开医学数据集。然而，SKINCON 中图像的标注是基于属性级别的，无法完全捕捉皮肤病的细微特征，与皮肤科医生基于自然语言的诊断报告存在显著差异。

据我们所知，目前还没有公开的皮肤病数据库能够同时提供自然语言的全面医学描述和皮肤病图像。像 SkinGPT-4 这样的研究表明，开放获取此类数据对于推动多模态 LLMs 在皮肤病诊断领域的研究具有巨大潜力。在本研究中，我们选取了来自 Fitzpatrick 17k 皮肤病数据集和 Diverse Dermatology Images 数据集的 4,000 张图像，并由多中心委员会认证的皮肤科医生进行了密集标注，包括丰富的医学描述或图片说明，最终创建了包含 4,000 个样本的 SkinCAP 数据集。值得注意的是，SkinCAP 是全球首个此类数据集（表 1），可在https://huggingface.co/datasets/joshuachou/SkinCAP 公开获取。

1. 研究目标及实际问题

研究目标：构建一个包含丰富医学描述的自然语言标注的多模态皮肤病数据集，以提高皮肤病诊断中人工智能方法的可解释性。

实际问题：现有的皮肤病数据集在包含概念级别的元标签和丰富的医学自然语言描述方面存在不足，这阻碍了基于大型语言模型方法在皮肤病诊断领域的进步。

是否是新问题：是，现有的数据集普遍缺乏详细的医学描述和标注。

对产业发展的重要意义：有助于推动皮肤病诊断技术的精准化和智能化，提高诊断效率和准确性，满足日益增长的医疗需求。

2. 新思路、方法或模型

新思路：提出了SkinCAP数据集，该数据集通过皮肤科医生的多中心标注，包含了丰富的医学描述和标注。

解决方案关键：数据集的质量和标注的准确性是关键，SkinCAP由多名经验丰富的皮肤科医生进行标注，保证了数据的准确性和可靠性。

特点和优势：与之前的皮肤病数据集相比，SkinCAP具有最广泛的皮肤病类型覆盖、最全面的自然语言标注以及最丰富的医学上下文信息。

3. 实验验证及结果

实验设计：通过收集和标注皮肤病图像，构建SkinCAP数据集，并利用该数据集进行皮肤病诊断模型的训练和验证。

实验数据：SkinCAP包含4000张皮肤病图像，代表178种皮肤病类型，涵盖所有皮肤色调。

实验结果：SkinCAP为训练多模态大型语言模型提供了宝贵资源，有助于提升皮肤病评估的准确性。

支持科学假设：实验验证了SkinCAP数据集在提升皮肤病诊断模型性能方面的有效性。

4. 论文贡献、影响及应用场景

论文贡献：首次提出了包含丰富医学描述的自然语言标注的多模态皮肤病数据集。

产业影响：有助于推动皮肤病诊断技术的智能化发展，提升医疗效率和质量。

应用场景：适用于训练多模态大型语言模型，实现皮肤病的自动化诊断和评估。

商业机会：为开发智能化皮肤病诊断系统提供了数据支持，开辟了新的市场领域。

工程师关注点：关注数据集构建、模型训练和验证的技术细节，以及如何将研究成果应用于实际医疗场景中。

5. 未来探索与挑战

探索方向：如何利用SkinCAP数据集进一步优化多模态大型语言模型，提高皮肤病诊断的准确性和效率；拓展数据集应用范围，探索更多潜在应用场景。

挑战：数据集的持续更新和维护，确保数据质量和标注的准确性；模型的泛化能力和鲁棒性提升，应对复杂多变的实际医疗场景。

新技术与投资机会：人工智能技术在医疗领域的应用将持续拓展，为相关领域带来投资机会。

6. 论文不足与存疑

不足：论文未提及数据集的长期更新和维护计划，以及模型在实际医疗场景中的应用效果验证。

存疑：尽管数据集在标注准确性方面得到了保证，但仍需进一步验证模型在实际应用中的性能和鲁棒性。

7. 非技术背景读者的启发与背景知识补充

启发：了解了数据在推动人工智能技术发展中的关键作用，以及跨学科合作在解决复杂问题中的重要性。

背景知识补充：需要了解皮肤病诊断领域的基本知识，以及人工智能技术在医疗领域的应用现状和发展趋势。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

SkinCAP：一个包含丰富医学标注的多模态皮肤病学数据集