医学大型语言模型的兴起:医疗AI范式转变的全面综述



I. 引言:医学领域的生成式AI革命



从判别式AI到生成式AI的范式转变


近年来,人工智能(AI)在医学领域的应用正经历一场深刻的范式转变。这一转变的核心是从传统的、任务特定的“判别式AI”向更为通用和强大的“生成式”基础模型的演进 1。早期的医学AI系统主要集中于判别式任务,例如,从医学影像中分类疾病或基于结构化数据预测特定结果 2。这些模型在一个预定义好的、封闭的选项集合内运作,其功能高度专业化。然而,大型语言模型(LLMs),特别是以GPT-4等为代表的生成式模型,开创了一个全新的时代 4。这些模型不仅能够理解和处理自然语言,更具备生成新颖、类人文本内容的能力,并且无需针对每个新任务进行专门的重新训练,即可处理多种多样的问题 1

这一变革的底层技术驱动力是Transformer架构及其核心的自注意力机制 3。通过在海量文本数据上进行预训练,LLMs能够学习到语言复杂的统计规律和深层语义关系,从而展现出所谓的“涌现能力”(emergent abilities),如上下文学习(in-context learning)、少样本(few-shot)甚至零样本(zero-shot)学习能力 6。这意味着模型可以根据提示(prompt)中提供的少量示例或纯粹的指令来执行新任务,这极大地改变了AI模型的开发和应用模式。相应地,医学AI的研究重心也正从以模型为中心(model-centered)的方法论转向以数据为中心(data-centered)的方法论 2。这种转变不仅仅是技术性能的量变,更是AI在医学领域所扮演角色的质变——从一个执行单一、预设任务的专用工具,演变为一个能够参与复杂认知工作流程的通用型合作伙伴 9


变革潜力与高风险现实


医学LLMs的出现,在学术界和产业界同时引发了巨大的兴奋与深切的担忧 2。一方面,其变革潜力是显而易见的。LLMs有望通过自动化管理任务、辅助临床决策、个性化患者教育以及加速医学研究,显著提升医疗服务的效率和质量,最终改善患者的健康结局 10。它们能够解析海量的非结构化临床文本,如电子健康记录(EHRs),从中提取关键信息,为医生提供决策支持;它们也可以生成通俗易懂的健康信息,赋能患者,促进医患沟通 11

然而,另一方面,将LLMs部署于临床这一高风险、安全攸关的环境中,也带来了前所未有的挑战。这些挑战构成了当前领域发展的核心矛盾,主要包括:事实准确性问题,特别是模型产生不准确或完全捏造信息的“幻觉”(hallucination)现象;伦理和问责问题,当AI系统出错并导致患者伤害时,责任应如何界定;数据隐私和安全问题,如何在利用大规模临床数据训练模型的同时,严格保护患者的敏感信息;以及算法偏见问题,模型可能从训练数据中学习并放大社会固有的偏见,从而加剧健康不平等 8。这些问题共同构成了一个复杂的 socio-technical 迷宫,其实际部署之路远比技术演示更为曲折。


本文主旨与结构


本文旨在对过去五年间医学大型语言模型领域的核心学术文献进行深入的检索、分析与批判性综合。本文的核心论点是:尽管医学大型语言模型代表了一次技术上的飞跃,其在重塑医疗保健方面展现出前所未有的潜力,但其当前的发展轨迹呈现出一个关键的断层——即模型在简化基准测试中所展现出的卓越性能,与在真实世界临床环境中安全、公平、可靠部署的严苛要求之间存在着巨大的鸿沟。 本综述将通过对医学LLMs的技术基础、里程碑式应用、评估范式及其核心风险的系统性剖析,旨在阐明这一鸿沟,并为未来构建以临床为本、值得信赖的医学AI指明方向。

为实现此目标,本综述的结构安排如下:第二部分将深入探讨医学LLMs的架构演进与核心开发方法学,阐释这些模型是如何被构建的。第三部分将介绍领域内几个标志性的医学LLM,分析其技术特点与贡献。第四部分将全面梳理LLMs在医疗生态系统中的各类变革性应用。第五部分将对当前主流的评估基准和方法进行批判性审视,揭示其内在局限性。第六部分将系统性地构建一个风险框架,剖析医学LLM面临的准确性、偏见、隐私和伦理等多维度挑战,并探讨相应的缓解策略。最后,第七部分将对全文进行总结,并对该领域的未来发展轨迹提出展望。


II. 医学LLMs的架构与方法学演进


医学大型语言模型(Medical LLMs)的构建并非一蹴而就,其技术路线图反映了整个自然语言处理(NLP)领域的快速迭代。本章节将提供一个技术性的基础框架,系统性地阐述医学LLMs是如何从早期的预训练语言模型演化而来,并详细剖析当前构建这些模型的三条核心技术路径。


从预训练语言模型(PLMs)到基础LLMs


医学LLMs的技术谱系可以追溯到早期的预训练语言模型(Pre-trained Language Models, PLMs)。这些模型,特别是基于编码器(encoder-based)架构的BERT及其在医学领域的衍生版本,如BioBERT和ClinicalBERT,是该领域的第一波浪潮 4。它们通过在大规模文本语料上进行“预训练”,学习通用的语言表示,然后针对特定的下游任务(如命名实体识别、关系提取)进行“微调”(fine-tuning) 18。这种“预训练-微调”范式在当时取得了巨大成功,但其局限性也十分明显:每个模型通常只能服务于一个或少数几个特定任务,缺乏通用性和灵活性。

真正的范式转变来自于模型规模的急剧扩张以及架构上的革新。以GPT系列、PaLM和T5为代表的新一代LLMs,采用了包含数千亿甚至更多参数的、更为庞大的解码器(decoder-only)或编码器-解码器(encoder-decoder)Transformer架构 3。当模型规模、数据量和计算资源跨越某个阈值后,这些模型展现出了前所未有的“涌现能力”,例如少样本和零样本学习 6。这意味着模型不再需要为每个新任务进行繁重的微调,而是可以直接通过在输入提示中提供任务描述或几个示例来完成任务。这一特性从根本上改变了AI模型的开发流程,为构建通用、多任务的医学AI奠定了基础。


核心开发路径:技术深度解析


当前,开发医学LLMs主要遵循三条技术路径,它们在资源投入、领域特异性和实现灵活性之间做出了不同的权衡。


从零开始预训练(Pre-training from Scratch)


这是资源最为密集、但可能获得最高领域特异性的方法。其核心思想是使用海量的、纯粹的医学领域语料库从头开始构建一个语言模型,使其“原生”地理解医学语言的复杂性和细微差别。

  • 方法学:该方法涉及收集规模庞大的医学文本,如临床笔记、医学文献、教科书和临床指南等,语料规模可达数百亿甚至数千亿词 4。模型在此基础上进行无监督的预训练,学习目标通常包括掩码语言建模(masked language modeling)或下一个词元预测(next token prediction),从而掌握医学术语、语法结构和上下文关系。

  • 案例研究 - GatorTron:GatorTron是这一路径的典型代表。该模型由佛罗里达大学与NVIDIA合作开发,其训练语料库包含了超过820亿词的、经过匿名化处理的佛罗里达大学健康系统的临床笔记,并辅以PubMed等公开文献数据 4。GatorTron系列模型基于BERT架构,其参数规模从3.45亿扩展至89亿,旨在构建一个对临床语言有深度原生理解的模型 21


领域自适应微调(Domain-Adaptive Fine-tuning)


这是目前最为主流和务实的技术路径。它充分利用了通用基础模型的强大能力,并通过在特定领域的语料上进行进一步训练,将其知识和能力“校准”到医学领域。

  • 方法学:该路径的核心技术包括:

  • 监督微调(Supervised Fine-Tuning, SFT):在通用LLM的基础上,使用高质量、人工标注的医学数据集(如医学问答对、医患对话录、医学知识图谱等)进行有监督的训练,使其学习遵循医学领域的指令和对话模式 4

  • 参数高效微调(Parameter-Efficient Fine-Tuning, PEFT):为了解决全参数微调带来的巨大计算开销,研究者开发了PEFT技术,如低秩自适应(Low-Rank Adaptation, LoRA)。这类技术通过仅更新模型参数的一小部分(或引入少量额外参数)来实现领域自适应,极大地降低了微调的硬件门槛和成本 4

  • 案例研究 - Med-PaLM & Med-PaLM 2:Google开发的Med-PaLM系列是该路径的标杆。它以通用的PaLM模型为基础,通过一种名为“指令提示微调”(instruction prompt tuning)的技术,在一个专门构建的医学问答基准MultiMedQA上进行微调 26。这一过程使模型能够更好地理解和遵循医疗指令,准确回答临床问题 4。此外,还有许多其他模型也采用了微调策略,例如基于医患对话数据微调的ChatDoctor和DoctorGLM,以及基于医学问答数据微调的MedAlpaca 4


基于提示的自适应与增强(Prompt-based Adaptation & Augmentation)


这是一种更为敏捷和灵活的方法,它在模型推理(inference)阶段通过精心设计的提示来引导通用LLM的行为,而无需改动模型的任何权重参数。

  • 方法学:该路径包含多种先进的提示工程(prompt engineering)策略:

  • 上下文学习(In-Context Learning, ICL):在提示中直接提供任务指令(零样本)或附带几个输入输出示例(少样本),引导模型在当前对话中“学会”如何执行任务 4

  • 思维链(Chain-of-Thought, CoT)提示:通过在提示中引导模型生成解决问题的中间推理步骤,显著提升了模型在复杂逻辑推理任务上的表现,并为模型的决策过程提供了一定程度的可解释性 4

  • 检索增强生成(Retrieval-Augmented Generation, RAG):这是缓解LLM“幻觉”问题的关键技术。RAG架构将LLM与一个外部的、可实时更新的知识库(如最新的临床指南、医学文献数据库)相连接。在生成回答前,模型首先从知识库中检索与问题最相关的信息,然后将这些检索到的信息作为上下文,生成一个有事实依据的、更可靠的回答 4。这有效解决了LLM内部知识静态、可能过时的问题 30

这三种开发路径并非相互排斥,而是共同构成了一个丰富的技术工具箱。从零开始预训练为领域知识的深度内化提供了可能,但其高昂的成本限制了其广泛应用。通用模型的出现和参数高效微调技术的成熟,使得领域自适应微调成为当前的主流,它在性能和成本之间取得了良好的平衡。而检索增强生成(RAG)作为一种轻量级的增强手段,有效解决了模型知识更新和事实准确性的痛点,正变得越来越重要。

实践中,最先进的医学LLM系统往往是这些方法的混合体。一个典型的先进系统可能会以一个强大的通用模型为起点,通过参数高效微调技术在医学对话数据上进行训练以对齐其风格和安全行为,同时集成一个RAG模块以确保其输出内容的实时性和事实准确性。这种混合策略代表了在追求高性能、控制成本和保障安全等多重目标下的战略趋同。


表1:医学LLM开发方法学分类


方法学类别

描述

关键技术

优点

缺点

代表模型/技术

从零开始预训练

使用海量领域专属语料库从头构建语言模型,使其原生掌握领域知识。

掩码语言建模 (MLM), 下一词元预测 (NTP)

领域特异性强,深度理解领域语言的细微差别。

计算成本极高,需要大规模、高质量的专属数据集。

GatorTron 21

领域自适应微调

在一个强大的通用预训练模型基础上,使用领域数据进行进一步训练,使其适应特定领域。

监督微调 (SFT), 指令微调 (IFT), 参数高效微调 (PEFT, 如LoRA)

计算效率高,能够利用通用模型的强大基础能力。

性能受限于基础模型的质量,可能继承通用模型的偏见。

Med-PaLM 2 26, ChatDoctor 4, MedAlpaca 4

基于提示的自适应与增强

在推理时通过精心设计的提示来引导通用模型,无需修改模型权重。

上下文学习 (ICL), 思维链 (CoT), 检索增强生成 (RAG)

灵活性极高,无需训练,可实时注入新知识,缓解幻觉。

性能高度依赖提示的设计,可能增加推理延迟。

Almanac 4, ChatCAD 4, DeID-GPT 4


III. 医学LLM领域代表性模型巡览


在上一章节探讨了构建医学LLM的方法学之后,本章节将具体介绍几个在该领域具有里程碑意义的模型。这些模型不仅是相应技术路径的杰出代表,也共同定义了当前医学LLM的技术前沿和性能基准。


专攻医学领域的先驱模型



GatorTron:临床数据规模的力量


  • 架构与训练:GatorTron系列模型是“从零开始预训练”路径的典范。其核心优势在于其前所未有的训练数据规模和质量。模型基于BERT架构,其最大版本的训练语料库包含了超过820亿词的、源自佛罗里达大学健康系统(UF Health)的真实世界临床笔记 20。在当时,这是一个在临床领域内无与伦比的数据规模,远超之前如ClinicalBERT等模型所使用的公共数据集(如MIMIC-III) 22

  • 性能与意义:GatorTron的实验结果有力地证明了,同时扩大模型参数规模(最大达到89亿)和临床训练数据规模,能够显著提升模型在一系列临床NLP任务上的性能,尤其是在自然语言推理(NLI)和医学问答(MQA)这类需要更深层次语义理解的复杂任务上 21。相较于之前的ClinicalBERT和BioBERT,GatorTron在NLI任务上实现了高达9.6%的准确率提升,在MQA任务上则提升了9.5% 21。GatorTron的成功,验证了在拥有足够数据和计算资源的条件下,“从零开始预训练”是打造高性能领域专用模型的有效路径。后续,该团队还推出了其生成式版本GatorTronGPT,进一步扩展了其应用能力 33


Med-PaLM系列:树立临床推理的性能标杆


  • 从PaLM到Med-PaLM 2的演进:与GatorTron不同,Google的Med-PaLM系列是“领域自适应微调”路径的集大成者。它的起点是拥有5400亿参数的通用大模型PaLM 27。其核心创新并非通过海量临床数据进行持续预训练,而是采用了一种更高效的“指令提示微调”(instruction prompt tuning)技术 27

  • MultiMedQA基准测试:Med-PaLM项目的一项关键贡献是构建并推出了MultiMedQA基准。这是一个综合性的医学问答评估套件,它整合了多个现有的公开数据集,其中最著名的是包含美国执业医师资格考试(USMLE)风格问题的MedQA数据集 26。MultiMedQA的出现,为评估和比较不同模型在医学知识和推理能力方面提供了一个更为全面的平台。

  • 性能里程碑:Med-PaLM是第一个在美国执业医师资格考试(USMLE)风格问题上取得“通过”分数(超过60%)的AI模型,这在当时是一个轰动性的成果 26。其继任者Med-PaLM 2则更进一步,成为首个在该任务上达到“专家”水平的模型,在MedQA数据集上的准确率最高达到了86.5% 26。相较于第一代模型,其性能提升超过19%,充分展示了该领域的快速进步 36。更值得注意的是,在由临床专家进行的人工评估中,Med-PaLM 2生成的长篇回答在多个维度上甚至优于普通全科医生生成的回答 36

  • 多模态扩展:Med-PaLM M:Med-PaLM系列并未止步于文本。其多模态版本Med-PaLM M将模型的能力扩展到了处理和整合多种数据类型,包括医学影像(如胸部X光片)和基因组学数据,这代表了构建通用生物医学AI的未来方向 26


通用大模型在临床领域的卓越表现



GPT-4与Llama系列


在领域专用模型不断取得突破的同时,一个引人注目的现象是,顶级的通用大模型(General-Purpose LLMs)在专业医学任务上也展现出了惊人的、甚至可与专用模型相媲美的性能。

  • 基准测试表现:多项研究表明,在医学LLM的评估中,通用模型,特别是GPT-4,占据了主导地位。在一项系统性综述中,涉及评估的研究里有高达93.55%都包含了通用模型 40。在极具挑战性的MedQA基准上,GPT-4的基础版本取得了86.1%的准确率,与经过深度医学优化的Med-PaLM 2(86.5%)几乎持平 36。这一结果对领域发展的核心假设提出了挑战:当通用模型足够强大时,专门的领域预训练是否仍然是必需的?

  • 通用能力与领域适配的权衡:这一现象揭示了模型开发策略中的一个核心权衡。一方面,像Med-PaLM 2这样的专用模型,通过明确的医学数据微调和安全对齐,其设计初衷就是为了确保在临床环境中的可靠性和细微差别理解能力 36。另一方面,像GPT-4这样的通用模型,凭借其巨大的模型规模和在互联网级别数据上的训练,似乎“免费”获得了强大的医学知识和推理能力 36。然而,通用模型在未经特别调整的情况下,可能更容易出现微妙的偏见,或缺乏在特定临床情境下的上下文感知能力 41

这种专用模型与通用模型之间的性能趋同现象,正在深刻地影响着医学LLM领域的发展方向。最初,行业的共识是医学领域的独特性要求必须构建专门的模型,GatorTron的成功似乎也印证了这一点。然而,当GPT-4这样规模空前、能力更强的通用模型出现后,其在专业基准上的表现打破了这一固有认知。

这引出了一个战略性的抉择:未来的研发重点应该放在哪里?是投入巨资构建一个在基准分数上略胜一筹的专用模型,还是利用一个现成的、强大的通用模型,并将资源更多地投入到安全护栏、RAG集成和特定工作流程的提示工程上?一些线索已经浮现。例如,有研究指出,经过通用安全对齐的GPT-4生产版本(在MedQA上得分81.4%)相较于其基础版本(86.1%)在专业基准上性能有所下降,这可能是因为通用的对齐过程削弱了其在特定领域的知识锐度 36。相比之下,Med-PaLM 2是专门为医学领域进行对齐的,因此能在保持高性能的同时满足安全要求 36

因此,未来的竞争焦点可能不再仅仅是基准测试上的分数高低,而是模型在真实临床工作流程中的可信赖部署能力。一个专用模型,即使其原始分数与通用模型相近,但可能因为更容易进行临床安全验证和对齐,而在实际应用中更具优势。这促使我们将关注点从“哪个模型更聪明?”转向“哪个模型在临床工作流程中更安全、更可靠?”。

表2:代表性医学大型语言模型概览


模型名称

基础模型/架构

参数规模

开发方法

关键训练数据

突出贡献

GatorTron

BERT (Megatron)

3.45亿 - 89亿

从零开始预训练

>820亿词的UF Health EHR笔记, PubMed

首个大规模利用真实世界临床笔记进行预训练的模型,验证了数据规模的价值 21

Med-PaLM

PaLM

5400亿

指令微调

MultiMedQA (包括MedQA, PubMedQA等)

首个在美国执业医师资格考试(USMLE)风格问题上达到“通过”分数的AI模型 26

Med-PaLM 2

PaLM 2

3400亿

指令微调

MultiMedQA, 专有医学数据集

首个在USMLE风格问题上达到“专家”水平(86.5%准确率)的模型,性能显著超越前代 26

GPT-4 (医学应用)

GPT-4

未公开

通用预训练 + (提示工程)

互联网规模的通用文本

在MedQA等医学基准上展现出与顶尖专用模型相媲美的性能,引发关于专用模型必要性的讨论 36

MedLLaMA / Llama系列 (医学应用)

Llama / Llama 2

70亿 - 700亿

领域自适应微调

公开医学问答、对话数据集

作为强大的开源基础模型,为医学LLM的研究和开发提供了更易于访问的平台 4

IV. 医疗生态系统中的变革性应用


在了解了医学LLM的构建方式和代表性模型之后,本章将转向探讨它们的实际应用,即这些模型能够做什么。基于现有文献,LLMs的应用场景已遍及医疗服务的多个层面,从直接辅助临床医生到赋能患者,再到推动医学研究,展现出巨大的变革潜力。


增强临床决策支持


这是医学LLM最核心、也是最具挑战性的应用领域。在这里,LLM扮演着临床医生的“认知辅助”角色,帮助处理信息、生成假设,并提供决策参考。

  • 诊断与鉴别诊断:LLM能够快速处理患者的病史、症状描述和检查结果,并根据其庞大的医学知识库,生成一个可能的鉴别诊断列表 4。例如,专门为诊断推理优化的模型AMIE,旨在模拟医生的诊断思维过程 45

  • 治疗建议与方案规划:基于最新的临床指南和患者的具体情况(如共病、过敏史等),LLM可以为医生推荐个性化的治疗方案 4。这有助于确保治疗决策的规范性和前沿性。

  • 临床风险预测:通过分析结构化和非结构化的电子健康记录(EHR)数据,LLM可以用于预测多种临床风险,如患者的院内死亡率、30天再入院风险或特定疾病的复发概率 4


优化临床工作流程与减轻行政负担


临床医生有相当一部分时间被耗费在繁重的文书工作上。LLMs在自然语言处理上的强大能力,使其成为自动化这些任务的理想工具,从而将医生解放出来,让他们能更专注于患者护理。

  • 自动化报告生成:这是LLM应用最为成熟的方向之一。模型可以根据影像学发现或患者住院期间的诊疗记录,自动生成放射学报告、出院小结或门诊病历的初稿 4。已有研究专门评估了LLM在牙科全景片放射报告生成中的表现,并取得了积极成果 25

  • 临床文档摘要与数据提取:LLM能够将冗长的患者病历浓缩成一份简洁、要点突出的摘要,帮助医生快速掌握患者的核心问题。同时,它还能从非结构化的文本中自动提取结构化信息,如诊断、用药、手术等,并将其转换为标准化的编码(如ICD编码),便于后续的数据分析和管理 4

  • 临床编码:自动化分配用于计费和管理的国际疾病分类(ICD)编码或诊断相关分组(DRG)编码,是减轻医疗编码员工作负担、提高编码准确性和一致性的重要应用方向 14


推动医学教育与科研创新


LLMs不仅是临床工具,也是强大的教育和科研辅助平台。

  • 医学教育:在医学教育领域,LLM可以扮演多种角色。它可以作为“虚拟患者”,供医学生进行临床接诊和诊断技能的模拟训练;也可以作为个性化导师,根据学生的学习进度和知识薄弱点,生成定制化的学习材料和练习题;甚至可以采用苏格拉底式的对话方式,引导学生进行批判性思考 4

  • 科研文献综合:面对呈指数级增长的医学文献,LLM能够帮助研究人员快速筛选、阅读和总结大量的学术论文,从而高效地把握领域最新进展、发现知识空白点,并激发新的研究思路 8


赋能患者与改善医患沟通


LLMs的应用正将医疗服务的重心部分地转移到患者身上,赋予他们在自我健康管理中更积极的角色。

  • 患者教育与健康素养提升:LLM能够将复杂的医学术语和诊疗方案,转化为患者能够理解的、通俗易懂的语言,生成个性化的健康教育材料 15。这对于提升全民健康素养、促进患者遵从医嘱具有重要意义。

  • 回答患者疑问:作为一线信息来源,LLM可以7x24小时在线回答患者关于疾病、检查、治疗等方面的常见问题,缓解患者的焦虑,并分流一部分非紧急的咨询需求 5

  • 促进医患沟通:通过在就诊前为患者提供相关背景知识,或在就诊后帮助患者更好地理解医生的嘱咐,LLM可以优化整个医患互动过程,使其更加高效和富有成效 11


下一个前沿:多模态与具身智能


LLMs的未来发展将超越纯文本的范畴,迈向一个更加整合和智能化的新阶段。

  • 多模态数据融合:真正的临床决策是多模态的,它需要整合来自文本(病史)、影像(放射学、病理学)、基因组学以及时间序列数据(生命体征、实验室检查)等多种来源的信息。以Med-PaLM M为代表的多模态模型,正致力于用一个统一的框架来处理这些异构数据,从而形成对患者状况的更全面、更立体的理解 18

  • 医疗机器人:LLMs的规划和推理能力也开始被应用于具身智能领域,例如在机器人手术中进行高层次的策略规划,或在超声检查中实现自主扫描控制 14

审视整个应用图景,可以发现一个清晰的两阶段发展趋势。当前,医学LLM的成功应用主要集中在以语言为中心、风险相对较低的行政和辅助性任务上,例如文档摘要、报告起草等。这些任务充分利用了LLM在自然语言处理上的核心优势,并且即使出现错误,通常也有人类专家进行审核和修正,风险可控。

然而,该领域的最终目标——实现高风险、自主的临床核心决策(如独立诊断和治疗决策),仍然是一个遥远且艰巨的挑战。文献中在描述这类应用时,更多使用的是“潜力巨大”、“有待验证”等词语 9,并明确指出LLM在这些任务上的表现尚不稳定,远未达到能够整合进实际临床决策流程的可靠性水平 3

从辅助文本处理到融合多模态数据进行综合推理,这一演进路径是符合逻辑的,因为真实的临床决策本身就是一个多模态信息整合的过程。Med-PaLM M等模型的出现,表明研究者们已经清醒地认识到了纯文本模型的局限性,并开始向着更接近真实临床实践的方向努力。总而言之,医学LLM的应用现状是一种谨慎的“增强智能”模式。它正在成功地解决医疗领域的“文书工作”问题,但更艰难的“临床推理”问题仍处于早期探索阶段。其角色演进的轨迹是从“行政助理”到“认知伙伴”,而我们目前还主要停留在前一个阶段。


V. 评估的至关重要性:基准、性能与有效性


在描绘了医学LLM的广阔应用前景之后,一个根本性的问题随之而来:我们如何科学、客观地衡量这些模型的性能,判断它们是否真的“足够好”以用于临床?本章将深入探讨医学LLM的评估体系,从介绍当前主流的基准测试,到对其内在局限性进行深刻的批判性分析。


基准测试的现状


为了量化和比较不同LLM的医学能力,学术界开发了一系列基准数据集。这些基准通常以问答(QA)的形式出现,特别是多项选择题(MCQA)格式,因为其评估过程可以完全自动化,便于大规模测试 49

  • 核心数据集

  • MedQA:这是目前最广泛使用的医学LLM基准之一。它包含了美国执业医师资格考试(USMLE)风格的多项选择题,旨在评估模型的临床知识广度和推理能力 4

  • PubMedQA:该数据集基于PubMed的科研文献摘要,要求模型回答“是/否/可能”三选一的问题,测试其对生物医学研究文献的理解能力 49

  • MedMCQA:这是一个源自印度医学入学考试的多项选择题数据集,同样用于评估模型的医学知识水平 26

  • 其他基准还包括MMLU的临床主题部分、BLURB等,它们覆盖了从命名实体识别到关系提取等多种NLP任务 26

  • 前沿性能表现:在这些主流基准上,顶级LLM之间的竞争异常激烈。如前文所述,专用模型Med-PaLM 2在MedQA上的准确率达到了86.5%,而通用模型GPT-4的基础版本也取得了86.1%的惊人成绩,两者性能几乎并驾齐驱 36。其他模型如Llama和Flan-T5也在PubMedQA等基准上展现了强大的实力 43。这些高分似乎预示着AI在医学知识掌握上已接近甚至超越人类专家水平。


对现状的批判:建构效度危机


然而,在这些亮眼的数字背后,一股强烈的批判声音正在兴起,直指当前基准测试体系的核心缺陷。这一批判的核心概念是“建构效度”(Construct Validity)。

  • “建构效度”的概念:源自心理测量学,建构效度指的是一个测试在多大程度上能够准确地测量出它所声称要测量的那个潜在的、抽象的“构念”(construct) 54。在医学LLM的语境下,这个“构念”通常被模糊地称为“临床推理能力”或“医学知识”。

  • 为何基于考试的基准缺乏建构效度?:Alaa等学者的开创性工作系统地阐述了这一问题 54。他们认为,以USMLE等执业资格考试为蓝本的基准(如MedQA)严重缺乏建构效度。其核心论点是:
    真实的临床实践与这类标准化考试之间几乎没有相似之处。临床工作是一个动态、开放式、信息不完全的决策过程,它要求医生具备与患者互动、收集信息、形成和修正假设、并在不确定性中做出判断的能力。而标准化考试则是一个静态的、封闭式的知识回忆和应用测试 50

  • “进步的幻觉”:过度依赖这些有缺陷的基准,会创造一种“进步的幻觉”(illusion of progress) 50。研究机构和开发者被激励去优化模型在这些基准上的分数,从而在排行榜上取得领先。然而,一个在MedQA上取得高分的模型,并不一定意味着它能在真实的临床环境中安全地管理一个复杂的病人。这就导致了模型的“排行榜性能”与其实际的“临床效用”之间出现了严重的脱节 54

  • 数据污染风险:另一个严峻的问题是数据污染(data contamination)。许多基准数据集(如公开的考试问题)在互联网上是可获取的,它们很有可能已经被包含在LLM的庞大预训练语料库中。如果模型在训练时已经“见过”测试题,那么它在评估时的表现就不是对其推理能力的真实检验,而更像是一种“记忆检索”,这会使其性能被严重高估 50

这一系列批判揭示了医学LLM领域正在形成一个危险的“二元世界”:一个是“基准测试世界”,由排行榜和分数驱动;另一个是“临床现实世界”,由患者安全和诊疗效果定义。驱动研究的指标(如MedQA分数)与临床实践中真正重要的指标(如在混乱的真实病例中的诊断准确率)正在日益脱钩。这种脱钩不仅会误导研究方向,更可能在未来导致不安全、无效的AI产品被部署到临床中。


迈向以临床为本的评估体系


面对当前评估体系的危机,研究界开始探索更具临床意义和有效性的评估新范式。

  • 利用真实世界数据:核心的解决方案是将评估体系重新植根于临床现实,即利用真实的临床数据,特别是电子健康记录(EHRs),来开发和验证基准 54。这能确保评估任务的临床保真度。

  • 构建新的评估框架:需要超越简单的多项选择题,构建能够评估模型在模拟真实世界场景中安全性和有效性的新框架。例如,临床安全-有效性双轨基准(Clinical Safety-Effectiveness Dual-Track Benchmark, CSEDB)就是这样一个尝试 51。该框架由临床专家团队开发,包含大量开放式问答案例,覆盖了危重症识别、临床指南遵循、用药安全等多个关键维度 51

  • 人类专家评估作为金标准:尽管自动化基准具有可扩展性,但在评估LLM输出的微妙之处,如质量、安全性、同理心和实用性时,由临床专家进行的人工评估仍然是不可替代的“金标准” 49

总而言之,医学LLM的评估正处在一个方法论的十字路口。它可以继续沿着易于量化但临床相关性存疑的旧路走下去,也可以选择开启一条更艰难、更缓慢,但最终更有意义的新路——发展以临床现实为基础的、真正能够衡量模型价值的评估范式。该领域未来的安全和效能,很大程度上取决于这个选择。

表3:前沿LLM在核心医学基准上的性能表现


模型名称

MedQA 准确率 (%)

PubMedQA 准确率 (%)

MedMCQA 准确率 (%)

Med-PaLM 2 (best)

86.5 36

79.0 36

73.1 36

GPT-4-base (5-shot)

86.1 36

-

73.0 (approx.) 60

GPT-4 (aligned, 5-shot)

81.4 36

75.0 (zero-shot) 52

-

o1 (OpenAI reasoning model)

96.9 57

-

-

Llama 3.1 Instruct Turbo (405B)

92.4 57

-

-

Flan-T5-XXL

-

76.4 43

-

MedLLaMA-13B

-

59.4 43

-

注:上表数据反映了各模型在不同研究中报告的最佳性能,测试条件(如提示策略)可能存在差异。更重要的是,如本章所批判性分析,这些基于标准化考试的基准在衡量真实世界临床能力方面存在显著的“建构效度”问题,其分数应被谨慎解读 54

VI. 穿越风险迷宫:构建可信赖医学LLM的框架


尽管医学LLM的潜力巨大,但其通往临床应用的道路上布满了技术、伦理和社会层面的风险。只有正视并系统性地解决这些挑战,才能构建真正值得信赖的医学AI。本章将对这些风险进行分类,并探讨相应的缓解策略,旨在为安全部署医学LLM提供一个全面的框架。


准确性的幽灵:幻觉、错误与错误信息


模型输出的不准确性是医学LLM面临的首要且最致命的风险。Sun等学者的研究为我们提供了一个清晰的分类框架,用于区分三种经常被混淆的不准确信息类型 31

  • 错误(Errors):指存在于临床系统内部的不准确信息,例如电子健康记录(EHR)中的错误诊断、错误的药物剂量记录等。这类信息的传播范围有限,通常局限于医疗系统内部,但其直接危害性可能非常高,直接影响患者的诊疗安全 31

  • 错误信息(Misinformation):指有潜力在临床系统外部广泛传播的不准确信息,例如在社交媒体上传播的关于疫苗的谣言或无效的癌症疗法。这类信息可能源于无意的误解,也可能是有意为之的虚假宣传(即disinformation),其主要危害在于误导公众,破坏公共卫生秩序,侵蚀对医疗体系的信任 31

  • 幻觉(Hallucination):特指由LLM自身生成的、看似合理但实际上与事实不符或毫无根据的信息。这是生成式模型的固有缺陷。在医学领域,幻觉的危害是双重的:如果LLM生成的幻觉内容被用于撰写临床文档,它就可能制造出“错误”;如果它被用于回答患者提问或生成健康教育材料,它就可能传播“错误信息” 4


内在偏见与对公平的求索


LLMs是从海量数据中学习模式的,这意味着如果训练数据本身包含了社会中存在的各种偏见,模型不仅会学习这些偏见,甚至可能将其放大。

  • 偏见的来源:训练数据是偏见的主要来源。如果数据在不同人群(如性别、种族、族裔)中的代表性不足,模型在服务这些代表性不足的群体时,性能就可能更差 17。例如,大多数临床试验和医学研究数据都以白人男性为主,基于这些数据训练的模型可能不适用于其他人群。

  • 对健康不平等的加剧:带有偏见的LLM会直接威胁到医疗公平。它可能会对少数族裔患者的症状描述做出错误的解读,或者为女性患者推荐基于男性生理特征的治疗方案,从而延续甚至加剧现有的健康不平等问题 17。已有研究表明,在提示中加入社会身份信息会显著降低LLM检测错误信息的准确性,这揭示了偏见对模型判断力的影响 57


隐私、伦理与治理的迫切需求


除了技术层面的准确性和公平性,医学LLM的应用还触及了更深层次的隐私、伦理和法律问题。

  • 患者隐私保护:一方面,训练强大的医学LLM需要大规模的真实临床数据;另一方面,这些数据包含了极其敏感的个人健康信息(Protected Health Information, PHI),必须受到严格的隐私保护。如何有效地对海量临床文本进行匿名化处理,同时又不损失其医学价值,是一个巨大的技术和合规挑战 8。此外,使用由第三方公司提供的闭源LLM API来处理临床数据,会带来严重的数据安全和隐私泄露风险 41

  • 伦理与问责制:当一个LLM辅助的决策系统出现失误,并对患者造成伤害时,责任应该由谁来承担?是开发者、使用者(医生),还是医疗机构?建立清晰的问责框架是部署LLM前必须解决的伦理和法律难题 4。此外,LLM的“黑箱”特性,即其决策过程缺乏透明度和可解释性,与医学领域对决策依据的严格要求背道而驰,构成了临床采纳的主要障碍 17

  • 监管框架的缺失:现有的针对传统医疗器械的监管法规,可能无法完全适用于像LLM这样具有自适应性、通用性和持续学习能力的AI系统。迫切需要建立一套既能保障安全、又能鼓励创新的敏捷、稳健的治理和监管框架 4


风险的缓解路径


面对上述错综复杂的风险,单一的解决方案是无效的。必须采取一种结合了技术、流程和政策的综合性、社会-技术(socio-technical)方法。

  • 技术层面的缓解策略

  • 检索增强生成(RAG):如前文所述,RAG是目前对抗幻觉最有效的技术手段之一,它通过将模型的生成过程“锚定”在可验证的外部知识源上,来提升输出的事实准确性 30

  • 其他技术:还包括在模型训练阶段加入特定的校正算法,以及在生成后使用生物医学知识图谱等结构化知识库对模型的输出进行事实校验和过滤 4

  • 社会-技术层面的解决方案

  • “医生在环”(Doctor-in-the-Loop):这是确保安全的核心原则。在可预见的未来,LLM应被定位为辅助人类专家的工具,而非自主决策者。所有高风险的临床决策都必须经过人类医生的审核和确认 3

  • 人类监督与评估:将人类专家评估作为模型开发和部署全生命周期中的一个必要环节,持续监控模型的性能和安全性 49

  • 针对性的教育与支持:研究表明,不同群体对LLM的接受度存在差异,例如临床工作者、年长者和女性群体可能更为谨慎 64。因此,需要通过有针对性的教育和培训,帮助所有使用者了解LLM的能力边界和潜在风险,以克服采纳障碍,促进其负责任的使用 64

这些风险并非孤立的技术“缺陷”,而是一个相互关联、盘根错节的系统性挑战。例如,一个纯粹的技术问题——“幻觉”,当其输出被用于回答患者提问时,就演变成一个公共卫生层面的“错误信息”问题;当其输出被写入EHR时,则变成一个直接影响患者安全的临床“错误”。同样,试图用RAG技术解决幻觉问题,如果其所依赖的知识库本身存在偏见,那么技术解决方案反而可能引入新的“偏见”问题。而偏见问题又不仅仅是数据问题,它直接关联到医疗公平这一深刻的伦理议题。即使一个模型在技术上是完美的,其部署仍然会引发关于法律责任和监管的社会性问题。

因此,应对这些挑战不能头痛医头、脚痛医脚。必须采取一种系统性的思维,将技术创新、流程设计、伦理规范和政策法规结合起来。未来的进步将不仅取决于构建更强大的模型,更取决于能否围绕这些模型构建一个值得信赖的、由研究者、临床医生、伦理学家、患者和监管机构共同参与的生态系统。

表4:医学LLM的风险与缓解策略框架


风险类别

风险描述

具体表现形式

缓解策略

不准确性 (幻觉, 错误, 错误信息)

模型生成与事实不符、不准确或具有误导性的信息,威胁患者安全和公众健康。

生成错误的药物剂量;在病历中捏造检查结果;向患者提供无效的治疗建议。

技术层面: 检索增强生成 (RAG) 30, 知识图谱校验 63, 训练时校正 4


社会-技术层面: 严格的人类专家审核流程 3, 建立事实核查机制。

偏见与公平性

模型从训练数据中学习并放大社会偏见,导致对不同人群的服务质量存在差异,加剧健康不平等。

对代表性不足群体的诊断准确率较低;生成带有刻板印象的医患对话;在资源分配建议中体现偏见。

技术层面: 数据集去偏与平衡 62, 公平性感知算法设计。


社会-技术层面: 对不同亚群进行细粒度性能评估和审计 57, 建立偏见报告和修复机制。

隐私与安全

在利用大规模临床数据时,未能有效保护患者的个人健康信息 (PHI),或面临数据泄露风险。

训练数据中包含可识别的患者信息;通过提示注入攻击泄露PHI 4;第三方模型的数据滥用。

技术层面: 先进的匿名化技术 20, 联邦学习, 差分隐私。


社会-技术层面: 部署在本地、私有化的模型 18, 严格的数据治理和访问控制策略, 遵守HIPAA等法规。

伦理与监管

缺乏清晰的问责机制、透明的决策过程和适应性的监管框架,阻碍了模型的临床采纳和公众信任。

AI决策失误导致医疗事故时的责任归属不清;模型“黑箱”特性使其决策过程无法解释 17;现有法规不适用于通用AI。

技术层面: 发展可解释性AI (XAI) 技术,如思维链 (CoT) 4


社会-技术层面: “医生在环”原则 3, 建立清晰的伦理指南和问责框架 17, 制定敏捷、适应性的AI医疗监管政策 4。

VII. 总结与未来展望


经过对过去五年医学大型语言模型领域核心进展的系统性梳理与批判性分析,本综述旨在为这一新兴交叉学科的现状、挑战与未来提供一个全面而深刻的图景。


核心发现:能力与可靠性之间的鸿沟


本综述的核心发现可以概括为一点:医学LLM在“能力展示”和“临床可靠性”之间存在着一条显著的鸿沟。一方面,这些模型在处理特定任务,尤其是在标准化的、基于文本的基准测试中,展现出了令人惊叹的能力。它们能够以接近甚至超越人类专家的水平通过执业医师资格考试,能够流畅地生成和总结复杂的医学文本,其潜力不容置疑。

然而,另一方面,当我们将视线从理想化的测试环境转向混乱、复杂且高风险的真实临床世界时,这些模型的可靠性便大打折扣。当前,驱动领域发展的主要张力源于以下几个方面:

  • 专才 vs. 通才:领域专用模型(如Med-PaLM 2)与顶级通用模型(如GPT-4)在标准化测试上性能趋同,这引发了关于未来发展路径的深刻思考——是继续深耕领域特化,还是利用通用模型的强大能力并专注于其安全应用?

  • 基准表现 vs. 临床效度:对以医学考试为代表的主流基准的过度依赖,可能正在将研究引向一个与真实临床需求脱节的方向。排行榜上的高分并不能直接转化为临床价值。

  • 技术进步 vs. 伦理法规:技术发展的速度远远超过了伦理、法律和监管框架的演进速度,为这些模型的安全、负责任部署带来了巨大的不确定性。


对各方利益相关者的行动建议


为了跨越上述鸿沟,推动医学LLM从“有潜力的技术”向“值得信赖的临床工具”转变,需要各方协同努力。

  • 对研究者而言

  • 转移评估重心:应将研究焦点从在现有基准上追求边际性能提升,转向开发和验证具有更高临床保真度和建构效度的新型评估方法学。

  • 聚焦核心挑战:优先投入资源研究可解释性、偏见缓解、幻觉抑制和稳健性等根本性安全问题,而非仅仅追求更高的基准分数。

  • 深化交叉合作:与临床医生、伦理学家和社会科学家建立更紧密的合作关系,确保技术研发从一开始就根植于真实的临床需求和深刻的伦理考量之中 3

  • 对临床医生而言

  • 拥抱并审慎:以一种“知情的乐观”和“批判性的怀疑”态度来接触和了解这项技术。积极参与到LLM工具的设计、测试和评估中,确保最终产品能够解决真实的临床痛点,并坚持“医生在环”的原则 41

  • 认知局限性:清晰地认识到当前LLM的局限性,特别是在事实准确性(幻觉)和潜在偏见方面,避免在没有充分验证的情况下过度信赖其输出。

  • 对政策制定者与监管机构而言

  • 发展敏捷监管:建立能够跟上技术快速迭代步伐的、灵活且适应性强的监管框架。这可能需要引入新的监管类别和评估路径,如“沙盒”测试和上市后持续监控。

  • 确立标准与透明度:推动建立关于模型透明度、数据隐私保护和开发者问责制的行业标准,这是构建公众和专业人士信任的基石 4


结语:人机协作的医学未来


医学大型语言模型的未来,不在于取代医生,而在于演化为医生不可或缺的认知伙伴。其最终价值的实现,将是通过自动化繁琐的行政工作、普及和个性化医学知识,从而将临床医生从文书工作的重压下解放出来,让他们能够将更多的时间和精力投入到医疗服务中那些最核心、最不可替代的、属于人性的部分:同理心、复杂的临床判断、以及与患者之间温暖而信任的联结。

将LLMs成功地整合进复杂的医疗生态系统,将是一项长期而艰巨的系统工程。这不仅需要技术的持续突破,更需要一种平衡、审慎和以伦理为先导的方法。在这条探索之路上,必须始终将患者的安全和临床的有效性置于所有技术指标和商业利益之上 10。唯有如此,我们才能确保这场由生成式AI引领的革命,最终能够真正地服务于人类的健康与福祉。

Works cited

  1. Generative artificial intelligence, patient safety and healthcare quality: a review, accessed August 31, 2025, https://qualitysafety.bmj.com/content/33/11/748

  2. A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2310.05694

  3. A Survey of Large Language Models in Medicine: Progress, Application, and Challenge - arXiv, accessed August 31, 2025, https://arxiv.org/pdf/2311.05112

  4. A Survey of Large Language Models in Medicine: Progress ... - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2311.05112

  5. A Systematic Review of ChatGPT and Other Conversational Large Language Models in Healthcare - PubMed, accessed August 31, 2025, https://pubmed.ncbi.nlm.nih.gov/38712148/

  6. Large language models in medicine, accessed August 31, 2025, https://eclass.hmu.gr/modules/document/file.php/ECE128/%CE%92%CE%B9%CE%B2%CE%BB%CE%B9%CE%BF%CE%B3%CF%81%CE%B1%CF%86%CE%AF%CE%B1%20-%20Literature/2023%20-%20Large%20Language%20Models%20in%20Medicine%20-%20Nature%20Medicine.pdf

  7. Large Language Models in Medicine: The Potentials and Pitfalls: A Narrative Review, accessed August 31, 2025, https://www.acpjournals.org/doi/10.7326/M23-2772

  8. Large Language Models in Healthcare and Medical Domain: A Review - MDPI, accessed August 31, 2025, https://www.mdpi.com/2227-9709/11/3/57

  9. Large Language Models in Medicine: Applications, Challenges, and Future Directions, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12163604/

  10. A Survey on Medical Large Language Models: Technology, Application, Trustworthiness, and Future Directions - arXiv, accessed August 31, 2025, https://arxiv.org/html/2406.03712v2

  11. The application of large language models in medicine: A scoping review - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11091685/

  12. A Review of Large Language Models in Medical Education, Clinical Decision Support, and Healthcare Administration - MDPI, accessed August 31, 2025, https://www.mdpi.com/2227-9032/13/6/603

  13. [2401.06775] Large language models in healthcare and medical domain: A review - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2401.06775

  14. A Survey on Medical Large Language Models: Technology ... - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2406.03712

  15. Current applications and challenges in large language models for patient care: a systematic review - PubMed, accessed August 31, 2025, https://pubmed.ncbi.nlm.nih.gov/39838160/

  16. Large language models in patient education: a scoping review of applications in medicine, accessed August 31, 2025, https://www.frontiersin.org/journals/medicine/articles/10.3389/fmed.2024.1477898/full

  17. Large Language Models in Healthcare and Medical Applications: A ..., accessed August 31, 2025, https://pubmed.ncbi.nlm.nih.gov/40564447/

  18. Clinical insights: A comprehensive review of language models in medicine - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12061104/

  19. Introduction to Large Language Models (LLMs) for dementia care and research - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11285660/

  20. GatorTron-OG | NVIDIA NGC, accessed August 31, 2025, https://catalog.ngc.nvidia.com/orgs/nvidia/teams/clara/models/gatortron_og

  21. (PDF) GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/358938843_GatorTron_A_Large_Clinical_Language_Model_to_Unlock_Patient_Information_from_Unstructured_Electronic_Health_Records

  22. GatorTron: A Large Clinical Language Model to Unlock Patient ..., accessed August 31, 2025, https://www.medrxiv.org/content/10.1101/2022.02.27.22271257v1.full-text

  23. A Large Language Model for Electronic Health Records - arXiv, accessed August 31, 2025, https://arxiv.org/pdf/2203.03540

  24. GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records | by Eleventh Hour Enthusiast | Medium, accessed August 31, 2025, https://medium.com/@EleventhHourEnthusiast/paper-review-gatortron-b38578b077a2

  25. Orthopantomography Radiology Report Generation Using Multimodal AI and Large Language Models - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/389489673_Orthopantomography_Radiology_Report_Generation_Using_Multimodal_AI_and_Large_Language_Models

  26. Med-PaLM: A Medical Large Language Model - Google Research, accessed August 31, 2025, https://sites.research.google/med-palm/

  27. Google Med-PaLM: The AI Clinician | Towards Data Science, accessed August 31, 2025, https://towardsdatascience.com/google-med-palm-the-ai-clinician-a4482143d60e/

  28. Large Language Models in Integrative Medicine: Progress, Challenges, and Opportunities, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12086751/

  29. Dual retrieving and ranking medical large language model with retrieval augmented generation - PMC - PubMed Central, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12103550/

  30. Retrieval augmented generation for large language models in healthcare: A systematic review - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12157099/

  31. A Scoping Review of Natural Language Processing in ... - arXiv, accessed August 31, 2025, https://arxiv.org/pdf/2505.00008

  32. GatorTron: A Large Clinical Language Model to Unlock Patient Information from Unstructured Electronic Health Records | medRxiv, accessed August 31, 2025, https://www.medrxiv.org/content/10.1101/2022.02.27.22271257v1

  33. UFNLP/gatortronS - Hugging Face, accessed August 31, 2025, https://huggingface.co/UFNLP/gatortronS

  34. A Study of Generative Large Language Model for Medical Research and Healthcare - arXiv, accessed August 31, 2025, https://arxiv.org/pdf/2305.13523

  35. PaLM - Wikipedia, accessed August 31, 2025, https://en.wikipedia.org/wiki/PaLM

  36. Toward expert-level medical question answering with large ..., accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11922739/

  37. Sharing Google's Med-PaLM 2 medical large language model, or LLM | Google Cloud Blog, accessed August 31, 2025, https://cloud.google.com/blog/topics/healthcare-life-sciences/sharing-google-med-palm-2-medical-large-language-model

  38. Multimodal Large Language Models in Health Care: Applications, Challenges, and Future Outlook - PMC - PubMed Central, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11464944/

  39. [2307.14334] Towards Generalist Biomedical AI - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2307.14334

  40. A systematic review of large language model (LLM) evaluations in clinical medicine | BMC Medical Informatics and Decision Making : r/science - Reddit, accessed August 31, 2025, https://www.reddit.com/r/science/comments/1mx9a8s/a_systematic_review_of_large_language_model_llm/

  41. Implementing Large Language Models in Health Care: Clinician-Focused Review With Interactive Guideline - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/393627240_Implementing_Large_Language_Models_in_Health_Care_Clinician-Focused_Review_With_Interactive_Guideline

  42. Which curriculum components do medical students find most helpful for evaluating AI outputs? - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11804085/

  43. (PDF) Evaluation of large language model performance on the Biomedical Language Understanding and Reasoning Benchmark - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/380762453_Evaluation_of_large_language_model_performance_on_the_Biomedical_Language_Understanding_and_Reasoning_Benchmark

  44. Medical reasoning in LLMs: an in-depth analysis of DeepSeek R1 - Frontiers, accessed August 31, 2025, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1616145/full

  45. Memorize and Rank: Elevating Large Language Models for Clinical Diagnosis Prediction | Request PDF - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/390700503_Memorize_and_Rank_Elevating_Large_Language_Models_for_Clinical_Diagnosis_Prediction

  46. Multimodal AI and Large Language Models for Orthopantomography Radiology Report Generation and Q&A - MDPI, accessed August 31, 2025, https://www.mdpi.com/2571-5577/8/2/39

  47. A Review on Revolutionizing Healthcare Technologies with AI and ML Applications in Pharmaceutical Sciences - MDPI, accessed August 31, 2025, https://www.mdpi.com/2813-2998/4/1/9

  48. [2508.19667] Survey of Specialized Large Language Model - arXiv, accessed August 31, 2025, https://arxiv.org/abs/2508.19667

  49. Swedish Medical LLM Benchmark: development and evaluation of a framework for assessing large language models in the Swedish medical domain - PMC, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC12290221/

  50. Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models, accessed August 31, 2025, https://arxiv.org/html/2508.04325v1

  51. A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/394175084_A_Novel_Evaluation_Benchmark_for_Medical_LLMs_Illuminating_Safety_and_Effectiveness_in_Clinical_Domains

  52. LLM Benchmarks in Life Sciences: Comprehensive Overview - IntuitionLabs, accessed August 31, 2025, https://intuitionlabs.ai/articles/large-language-model-benchmarks-life-sciences-overview

  53. Performance Assessment of Large Language Models in Medical Consultation: Comparative Study - PMC - PubMed Central, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11888074/

  54. Medical Large Language Model Benchmarks Should Prioritize Construct Validity, accessed August 31, 2025, https://www.researchgate.net/publication/389894401_Medical_Large_Language_Model_Benchmarks_Should_Prioritize_Construct_Validity

  55. Medical Large Language Model Benchmarks Should ... - arXiv, accessed August 31, 2025, https://arxiv.org/pdf/2503.10694

  56. arxiv.org, accessed August 31, 2025, https://arxiv.org/html/2503.10694v1

  57. MedQA Benchmark - Vals AI, accessed August 31, 2025, https://www.vals.ai/benchmarks/medqa-04-15-2025

  58. Swedish Medical LLM Benchmark: development and evaluation of a framework for assessing large language models in the Swedish medical domain - Frontiers, accessed August 31, 2025, https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1557920/full

  59. A scoping review of natural language processing in addressing medically inaccurate information: Errors, misinformation, and hallucination | Request PDF - ResearchGate, accessed August 31, 2025, https://www.researchgate.net/publication/393910752_A_scoping_review_of_natural_language_processing_in_addressing_medically_inaccurate_information_Errors_misinformation_and_hallucination

  60. Benchmarking Large Language Models (LLMs i.e. Gemini, ChatGPT4, Mixtral 8x7b, LLaMA-2) in the Medical Domain (medmcqa, medqa, pubmedqa etc.) | by Aaditya ura | Medium, accessed August 31, 2025, https://medium.com/@aadityaura_26777/benchmarking-large-language-models-llms-i-e-60a460d1c035

  61. arxiv.org, accessed August 31, 2025, https://arxiv.org/html/2505.00008v1

  62. University of Southern Denmark Unlocking the Potential of Electronic Health Records With Danish Clinical Language Models for Tex - Syddansk Universitets Forskerportal, accessed August 31, 2025, https://portal.findresearcher.sdu.dk/files/243589320/Reduced_Unlocking_the_Potential_of_Electronic_Health_Records_With_Danish_Clinical_Language_Models_for_Text_Mining.pdf

  63. Medical large language models are vulnerable to data-poisoning attacks - PubMed Central, accessed August 31, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11835729/

  64. Perspectives and Experiences With Large Language Models in Health Care: Survey Study, accessed August 31, 2025, https://pubmed.ncbi.nlm.nih.gov/40310666/


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: