IIMedGPT:通过高效的人类偏好对齐增强大语言模型在医学任务中的能力

近期,在海量通用语料库上预训练的大语言模型(LLM)的研究取得了突破,在响应人类查询方面表现出色。然而,这些方法面临挑战,包括有限的数据难以支持广泛的预训练,并且难以使回复与用户指令对齐。为了解决这些问题,我们引入了一个医学指令数据集CMedINS,其中包含源自实际医学任务的六项医学指令,结合其他数据可以有效微调大语言模型。随后,我们推出了我们的医学模型IIMedGPT,采用了一种高效的偏好对齐方法——直接偏好优化(DPO)。结果表明,我们的最终模型在医学对话方面优于现有的医学模型。数据集、代码和模型检查点将在接受后发布。

一、论文研究目标、问题及相关研究

1.1 研究目标

这篇论文的研究目标是提升大型语言模型(LLMs)在医疗任务上的能力,特别是通过一种高效的人类偏好对齐方法。论文提出了一个名为 IIMedGPT 的中文医疗大模型,旨在解决现有模型在处理医疗任务时存在的两个主要问题:

  • 数据不足:训练LLMs通常需要大量的预训练数据,但在特定领域(如中文医疗领域)往往缺乏足够的数据来支持广泛的预训练。

  • 难对齐用户指令:将LLMs的输出与用户指令对齐,确保输出结果符合用户的期望,是一个挑战。

1.2 要解决的实际问题

论文旨在解决大型语言模型在医疗领域应用中存在的以下几个实际问题:

  • 灾难性遗忘:在特定领域数据上进行微调时,模型可能会遗忘在预训练阶段学到的一般知识,导致灾难性遗忘问题。

  • 幻觉问题:LLMs 可能会生成一些看似合理但实际上是错误或无意义的信息,即产生幻觉,这在医疗领域是不能容忍的。

  • 单轮对话的局限性:现有的医疗对话模型大多基于单轮对话数据进行训练,而实际的医患对话通常是多轮的,由医生主导并包含多个问询。

  • RLHF 的局限性:尽管利用人类反馈的强化学习(RLHF)可以有效提升模型能力,并使其更好地遵循指令,但传统的 RLHF 方法需要训练奖励模型和进行近端策略优化(PPO),计算和标注成本都很高。

1.3 是否是一个新问题

构建一个基于真实医患对话的多任务中文医疗指令数据集,并利用直接偏好优化(DPO)方法提升模型在医疗对话中的表现,是一个相对新颖的研究问题。尽管将LLMs应用于医疗领域已经有了一些研究,但专门针对中文医疗场景、构建多任务指令数据集并利用DPO方法进行高效训练的研究还比较少见。

1.4 科学假设

论文验证的主要科学假设是:通过在精心构建的多任务医疗指令数据集上进行监督微调(SFT)并结合高效的直接偏好优化(DPO)方法,可以显著提升LLMs在医疗任务上的能力,同时减少对大量标注数据和计算资源的依赖。

1.5 相关研究

论文主要提到了以下几类相关研究:

  • 通用大语言模型 (General LLMs): 这类研究关注通用LLMs的开发和应用,例如ChatGPT、GPT-4、LLaMA、Bloom和Falcon等。这些模型在各种任务上都表现出了强大的能力,但缺乏特定领域的专业知识。

  • 医疗大语言模型 (Medical LLMs): 这类研究致力于开发专门针对医疗领域的LLMs。例如,MedAlpaca、ChatDoctor利用增量训练来提升模型能力;Med-PaLM通过医学专业人员的评估来提升临床响应的准确性;DoctorGLM结合了中文医疗对话数据集和外部医学知识库;BenTsao 仅依赖医学知识图谱来促进对话生成;HuatuoGPT 在包含2500万对话的数据集上进行训练,并利用混合方法增强响应质量;Zhongjing 通过三个阶段的训练:持续预训练、监督微调和RLHF来提升模型能力。

1.6 研究归类

这篇论文可以归类为人工智能(Artificial Intelligence, AI)自然语言处理(Natural Language Processing, NLP)大型语言模型(Large Language Models, LLMs), 以及医学信息学(Medical Informatics) 的交叉研究。

1.7 值得关注的研究员

根据论文的引用文献,以下研究人员在医疗LLMs和相关领域值得关注:

  • H. Touvron:LLaMA 系列模型的主要作者之一。

  • K. Singhal:发表了多篇关于大型语言模型编码临床知识的文章。

  • H. Xiong:DoctorGLM 的作者,该模型在中文医疗文本和对话上进行了微调。

  • H. Wang:HuaTuo 的作者,该模型利用中文医学知识调整 LLaMA 模型。

  • H. Zhang:HuatuoGPT 的作者,该模型结合了真实世界数据和从 ChatGPT 蒸馏的数据。

  • S. Yang:Zhongjing 的作者,该模型通过专家反馈和真实世界的多轮对话增强了中文医疗能力。

二、论文提出的新思路、方法和模型

2.1 新思路

这篇论文的主要创新点在于提出了一种针对中文医疗场景的两阶段训练方法,并构建了一个多任务医疗指令数据集CMedINS。具体来说,论文提出了以下新思路:

  1. 构建多任务医疗指令数据集CMedINS:该数据集包含从真实医疗场景中收集的22万对指令-答案数据,覆盖六种医疗指令类型和十多个医疗问答场景。

    "We collect 220,000 pairs of real medical records after the verification of doctors and open source a multi-task medical instruction dataset CMedINS."

  2. 两阶段训练方法:第一阶段在CMedINS和其他医疗、通用数据集上进行监督微调(SFT),第二阶段利用直接偏好优化(DPO)方法对齐人类偏好。

    "Therefore, we propose a two-stage training approach for developing the Chinese medical language model, IIMedGPT. This robust model is trained by two stages: supervised fine-tuning and direct policy optimization(DPO)[24]."

  3. 利用DPO方法进行高效的人类偏好对齐:DPO方法无需训练奖励模型,直接利用人类偏好数据集进行优化,提高了训练效率。

2.2 新方法: 两阶段训练方法

论文提出了一种两阶段训练方法来开发IIMedGPT模型。

第一阶段:监督微调 (Supervised Fine-tuning, SFT)

  • 数据: 使用多任务医疗指令数据集CMedINS、医疗对话数据集(CMtMedQA和ChatMed)以及通用指令数据集进行混合训练。

    "We construct a diverse training set to fine-tune our model including medical dialogues, medical instruction dataset, and general ability dataset."

  • 目标: 提升模型在医疗任务上的能力,同时保留其在一般任务上的能力,避免灾难性遗忘。

  • 模型: 基于Qwen-14B-base模型进行微调。

第二阶段:直接偏好优化 (Direct Preference Optimization, DPO)

  • 数据: 使用人工标注的偏好数据集,包含10,000个训练集样本和5,000个训练集外的样本。

    "The annotated dataset consists of 10,000 random samples from the training set, augmented with an additional 5000 out-of-training-set preference data, designed to train the model to handle both in-distribution and out-of-distribution scenarios."

  • 目标: 将模型的输出与人类偏好对齐,提升模型在安全性、专业性和流畅性方面的表现。

  • 方法: 直接利用偏好数据优化策略,无需训练奖励模型。

    "We confirm that carefully collected preference data can effectively improve the model's performance in aligning with human preferences by DPO."

  • 损失函数:

    "LDPO(θ) = - Ep[log σ(βlog(πθ(yw|x)/πref(yw|x)) - βlog(πθ(yi|x)/πref(yi|x)))] (4)"

2.3 新模型: CMedINS数据集

为了支持模型的训练,论文构建了一个名为CMedINS的多任务中文医疗指令数据集。该数据集的特点包括:

  • 数据来源:从真实医疗场景中收集,经过医生验证和脱敏处理。

    "We collect this information with authorization from both patients and hospitals."

  • 数据规模:包含约22万对指令-答案数据。

    "CMedINS, which includes approximately 220,000 instruction-answer pairs from real data across various medical departments."

  • 任务类型:包含六种医疗指令类型:实体识别、临床文本分类、关系匹配、医疗意图分类、临床术语标准化和医疗报告生成。

    "Fig3 illustrates the distribution of medical departments within the dataset, featuring six forms of medical instruction-query-answer pairs and covering more than 10 medical Q&A scenarios."

  • 覆盖范围:涵盖十多个医疗问答场景。

下图展示了CMedINS数据集的分布:

![alt text](https://img-bed-of-2025-02-10.oss-cn-beijing.aliyuncs.com/img/20240210161842.png)

2.4 与之前方法的比较

与之前的方法相比,本文提出的方法具有以下特点和优势:

  1. 多任务指令数据集:CMedINS是一个多任务数据集,涵盖多种医疗指令类型,有助于提升模型的泛化能力。

  2. 两阶段训练:结合SFT和DPO的两阶段训练方法,既能提升模型在特定任务上的表现,又能使其输出与人类偏好对齐。

  3. 高效的偏好对齐:DPO方法比传统的RLHF方法更高效,无需训练奖励模型和进行PPO训练,节省了计算和标注成本。

  4. 真实医疗数据:CMedINS数据集来自真实医疗场景,经过医生验证,数据质量较高。

三、实验设计、数据和结果

3.1 实验设计

论文通过AI评估和人工评估两个方面,在通用领域和医疗领域对IIMedGPT模型进行了全面的测试。

  • AI评估:使用GPT-4作为评估工具,评估模型输出的专业性和流畅性。

  • 人工评估:由专业医生评估模型输出的安全性、专业性和流畅性。

  • 评估指标:安全性、专业性和流畅性(SPF)。安全性是最重要的指标。

3.2 实验数据

  • 训练数据:CMedINS数据集、CMtMedQA、ChatMed和通用指令数据集。

  • 测试数据:Huatuo26M-test(6000个单轮医疗问答数据)和CMtMedQA-test(1000个多轮对话数据)。

3.3 实验结果

论文的主要实验结果如下:

  1. IIMedGPT在医疗对话能力上超越了所有现有的医疗模型,达到了SOTA水平。

    "Our results show that our model surpasses all existing medical models in medical dialogue capability, achieving state-of-the-art outcomes."

  2. IIMedGPT在使用较少数据资源的情况下,取得了比Zhongjing模型更好的结果,证明了其方法和数据的优越性。

    "Compared to the Zhongjing model, our model, using fewer data resources, achieves better results, proving the superiority of our method and dataset."

  3. 消融实验表明,DPO方法对模型性能提升有显著作用

    "As illustrated in the Fig5, the results of the ablation experiment suggest that the model experiences varying degrees of improvement across all capabilities."

  4. 在单轮对话安全性评估中,IIMedGPT的胜率为68%,平局率为26%,负率为6%,在所有模型中表现最佳

  5. 在多轮对话安全性评估中,IIMedGPT的胜率为76%,平局率为18%,负率为6%,同样表现最佳

3.4 实验结果是否支持假设

论文的实验结果有力地支持了所提出的假设,即通过在精心构建的多任务医疗指令数据集上进行监督微调(SFT)并结合高效的直接偏好优化(DPO)方法,可以显著提升LLMs在医疗任务上的能力,同时减少对大量标注数据和计算资源的依赖。

  • 关键数据

    • 在单轮对话安全性评估中,IIMedGPT的胜率为68%,显著高于其他模型(例如,BenTsao为86%,DoctorGLM为82%,HuatuoGPT为74%)。

    • 在多轮对话安全性评估中,IIMedGPT的胜率为76%,同样显著高于其他模型(例如,BenTsao为82%,DoctorGLM为74%,HuatuoGPT为60%)。

    • 消融实验表明,使用DPO方法后,模型在安全性、专业性和流畅性方面都有显著提升。

这些数据表明,IIMedGPT模型在医疗任务上具有出色的能力,特别是在安全性方面,这得益于CMedINS数据集和DPO方法的有效结合。

四、论文贡献、影响、应用场景和对工程师的启示

4.1 论文贡献

这篇论文的主要贡献包括:

  1. 构建了一个大规模的多任务中文医疗指令数据集CMedINS,包含约22万对从真实医疗场景中收集并经过医生验证的指令-答案数据,涵盖六种医疗指令类型。

  2. 提出了一个两阶段训练方法,结合监督微调和直接偏好优化,有效地提升了LLMs在医疗任务上的能力,并使其输出与人类偏好对齐。

  3. 开发了IIMedGPT模型,一个基于Qwen-14B并经过两阶段训练的中文医疗大模型,在医疗对话和指令遵循方面取得了SOTA结果。

  4. 验证了DPO方法在医疗领域应用中的有效性,为未来模型在其他领域的应用提供了参考。

4.2 业界影响

这篇论文的研究成果将对AI领域和医疗行业产生以下影响:

  1. 推动医疗LLMs的发展:CMedINS数据集和两阶段训练方法为开发更强大的医疗LLMs提供了新的思路和工具。

  2. 促进AI在医疗领域的应用:IIMedGPT模型在医疗对话和指令遵循方面的出色表现,将推动AI在医疗领域的实际应用。

  3. 为构建可信赖的医疗AI系统提供技术支持:通过提升LLMs在医疗任务上的安全性和专业性,有助于构建更加可信赖的医疗AI系统。

  4. 降低医疗AI开发的成本:DPO方法的高效性有助于降低模型训练的计算和标注成本,从而降低医疗AI开发的门槛。

4.3 潜在应用场景和商业机会

这篇论文提出的技术具有广泛的应用场景和商业机会,包括:

  1. 智能医疗问答系统:IIMedGPT模型可以用于构建智能医疗问答系统,为患者提供准确、可靠的医疗信息和建议。

  2. 辅助诊疗:IIMedGPT可以作为医生的助手,帮助医生进行疾病诊断、制定治疗方案等。

  3. 患者教育:IIMedGPT可以用于患者教育,帮助患者理解病情、治疗方案和注意事项等。

  4. 药物研发:CMedINS数据集可以用于药物研发,例如通过分析真实医疗数据发现新的药物靶点或适应症。

  5. 医疗信息管理:CMedINS数据集可以用于医疗信息管理系统的开发,例如自动生成病历报告、提取关键信息等。

4.4 对工程师的启示

作为一名工程师,我从这篇论文中获得了以下启示:

  1. 数据质量的重要性:高质量的训练数据是构建高性能AI模型的基础,特别是对于医疗等专业领域,数据的准确性和可靠性至关重要。

  2. 多任务学习的优势:通过构建多任务数据集,可以让模型学习到更丰富的知识和技能,提升其泛化能力。

  3. 人类偏好对齐的重要性:将AI模型的输出与人类偏好对齐,可以提高模型的可用性和安全性。

  4. 高效训练方法的价值:DPO等高效的训练方法可以降低模型训练的成本,加速AI应用的落地。

  5. 持续学习和跟进最新研究:AI领域发展迅速,作为工程师需要持续学习,关注最新的研究成果,并将其应用于实际的工程项目中。

五、未来研究方向、挑战、新技术和投资机会

5.1 值得探索的问题和挑战

这篇论文为未来的研究开辟了许多值得探索的方向,也提出了一些挑战:

  1. 多模态信息处理:目前的IIMedGPT模型只能处理文本信息,未来可以探索如何融合医学影像、生理信号等多模态信息,提升模型的综合能力。

    "IIMedGPT currently processes only textual information and can not process medical multimodal information, such as medical images or physiological signals."

  2. 模型的可解释性:尽管IIMedGPT模型在医疗任务上表现出色,但其内部的决策过程仍然是一个黑盒,未来需要探索如何提高模型的可解释性,增强其可信度。

  3. 个性化医疗服务:未来可以探索如何利用IIMedGPT模型为患者提供个性化的医疗服务,例如根据患者的具体情况生成定制化的治疗方案或健康建议。

  4. 知识更新和维护:医学知识不断更新,如何持续更新和维护模型的知识库,使其保持最新状态,是一个重要的挑战。

  5. 伦理和社会影响:将LLMs应用于医疗领域,需要仔细考虑其伦理和社会影响,例如数据隐私、算法偏见、责任归属等问题。

5.2 新技术和投资机会

未来的研究可能会催生出以下新技术和投资机会:

  1. 多模态医疗大模型:融合文本、图像、生理信号等多种模态信息的医疗大模型,可以提供更全面、更准确的医疗服务。

  2. 可解释的医疗AI:提高医疗AI模型的可解释性,有助于增强医患对模型的信任,促进其在临床实践中的应用。

  3. 个性化医疗平台:基于LLMs的个性化医疗平台,可以根据患者的具体情况提供定制化的医疗服务,具有广阔的市场前景。

  4. 医疗知识图谱:构建和维护大规模的医疗知识图谱,可以为医疗AI模型提供更丰富的背景知识,提升其性能。

  5. AI辅助的药物研发:利用AI技术加速药物研发进程,例如通过分析医疗数据发现新的药物靶点或适应症。

六、论文的不足和需要进一步验证的地方

6.1 论文的不足

从critical thinking的角度来看,这篇论文还存在以下不足:

  1. 评估指标的局限性:论文主要使用了基于GPT-4的自动评估和人工评估,评估指标主要集中在安全性、专业性和流畅性三个方面,缺乏更客观的、定量的评估指标,例如在具体医疗任务上的准确率、召回率等。

  2. 模型泛化能力:虽然论文提到使用了训练集外的数据进行测试,但测试数据的规模和多样性仍然有限,模型的泛化能力还需要在更大规模、更多样化的数据集上进行验证。

  3. 缺乏与更多SOTA模型的比较:论文主要与几个已有的中文医疗模型进行了比较,缺乏与更多SOTA模型的比较,例如一些通用的LLMs在医疗任务上微调后的表现。

  4. 实际应用场景的验证:论文主要在公开的医疗问答数据集上进行了实验,还需要在实际的应用场景中,例如真实的临床环境中,验证IIMedGPT模型的有效性和鲁棒性。

6.2 需要进一步验证和存疑的地方

  1. DPO方法的有效性:虽然论文的实验结果表明DPO方法可以提升模型性能,但DPO方法本身的局限性和适用范围还需要进一步研究,例如DPO方法是否对所有类型的偏好数据都有效,以及如何构建高质量的偏好数据集。

  2. CMedINS数据集的代表性:CMedINS数据集的规模和多样性是否足以代表真实的中文医疗场景,还需要进一步验证。

  3. 模型对长文本的处理能力:论文提到将单个响应的长度限制为4096个token,这可能会影响模型对长文本的处理能力,例如在处理复杂的病历报告时,是否会出现信息丢失或截断的问题。

  4. 模型的推理速度:论文没有提及IIMedGPT模型的推理速度,这对于实际应用来说是一个重要的考量因素,特别是在需要实时响应的场景中。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: