MedicalmT5: 一个用于医疗领域的开源多语言文本到文本 LLM

语言技术的研究在自然语言理解和生成领域中，尤其是针对医疗应用方面，是一个热门话题。因此，最近已经将许多大型语言模型（LLM）应用于医疗领域，使其能够作为工具促进人类与人工智能之间的交互。虽然这些 LLM 在自动化医疗文本基准测试方面表现出竞争力，但它们的预训练和评估主要集中在一种语言（主要是英语）上。对于文本到文本模型来说尤其如此，这些模型通常需要大量特定于领域的预训练数据，而对于许多语言来说，这些数据往往并不容易获得。在这篇文章中，我们通过汇编有史以来最大的多语言医学领域语料库来弥补这些不足，该语料库涵盖了英语、法语、意大利语和西班牙语四种语言。这个新的语料库已被用于训练 Medical mT5，这是第一个针对医疗领域的开源多语言文本到文本模型。此外，我们还为所有四种语言提出了两个新的评估基准，旨在促进该领域的多语言研究。全面评估表明，与编码器以及规模类似的文本到文本模型相比，Medical mT5 在西班牙语、法语和意大利语的基准测试中表现更好，在英语基准测试中与当前最先进的 LLM 相当。

一、引言

在自然语言理解和生成领域，针对医疗应用的语言技术研究正成为热点。随着人工智能技术的飞速发展，大型语言模型（LLMs）被广泛应用于医疗领域，作为人类与AI交互的媒介。然而，目前大多数LLMs主要针对单一语言（主要是英语）进行预训练和评估，这在多语言环境下存在明显的局限性。本文旨在解决这一问题，通过编译一个包含英语、法语、意大利语和西班牙语的医疗领域最大规模多语言语料库，来训练并评估首个开源的医疗领域多语言文本到文本模型——Medical mT5。

二、研究背景与动机

现有LLMs的局限性：尽管现有的LLMs在医疗文本自动化基准测试中表现出色，但它们主要基于单一语言进行训练，这限制了它们在多语言环境中的应用。
多语言语料库的缺乏：针对医疗领域的多语言语料库相对较少，且不易获取，这成为了训练多语言医疗LLMs的主要障碍。
多语言研究的需求：随着全球化的深入，医疗领域对于多语言处理能力的需求日益增加，这要求有相应的技术来支持。

三、研究方法

语料库编译：本研究首先编译了一个包含英语、法语、意大利语和西班牙语的最大规模医疗领域多语言语料库。
模型训练：基于该语料库，本研究训练了首个开源的医疗领域多语言文本到文本模型——Medical mT5。
评估基准：为了评估Medical mT5的性能，本研究还针对四种语言设计了两个新的评估基准。

四、主要成果

Medical mT5模型：该模型展示了在多语言环境下处理医疗文本的强大能力，为医疗领域的多语言交互提供了有力支持。
多语言语料库：编译的多语言医疗语料库不仅为Medical mT5模型的训练提供了基础，也为未来的多语言医疗语言技术研究提供了宝贵资源。
评估基准：新设计的评估基准为多语言医疗语言技术的研究提供了统一的评价标准，有助于推动该领域的发展。

五、影响与意义

本研究通过编译多语言医疗语料库和训练Medical mT5模型，为医疗领域的多语言处理提供了新的解决方案。这不仅有助于提升医疗领域的语言技术服务水平，还促进了多语言环境下的人机交互研究。此外，本研究还为未来的多语言医疗语言技术研究提供了基础资源和评价标准，具有重要的学术价值和实践意义。

六、未来展望

未来的研究可以进一步扩展Medical mT5模型的语言覆盖范围和应用场景，同时探索更多先进的自然语言处理技术在医疗领域的应用。此外，随着医疗数据的不断增长和技术的不断进步，未来的医疗语言技术将有望为医疗服务带来更加智能化、个性化的体验。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.