医学大型语言模型研究进展

 论文信息

  • 标题 (Title):Advances in Large Language Models for Medicine

  • 作者 (Authors):Zhiyu Kan, Wensheng Gan, Zhenlian Qi, Philip S. Yu

  • 发表年份 (Year):2025

  • 原文链接 (URL)https://arxiv.org/abs/2509.18690

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):大型语言模型 (LLMs) 作为人工智能领域的重大突破,正深刻影响着医疗健康行业 。本研究旨在系统性地回顾LLMs在医学领域的最新研究进展,深入分析医学大模型的训练技术、应用场景、优势与局限,并为未来的研究提供明确的指导

  • 方法 (Methods):本研究采用系统的文献回顾方法,检索了Web of Science、IEEE Xplore等主要学术数据库中关于医学LLM的核心文献,重点关注2020-2025年间的出版物 。论文对现有研究进行了梳理,并在此基础上提出了新的分类框架。

  • 结果 (Results):研究创新性地将医学LLMs根据其训练方法分为三类:从头预训练 (Pre-training)领域微调 (Fine-tuning)提示工程 (Prompting) 。同时,将其评估方法归纳为两大类:机器评估 (Machine Evaluation)以人为中心的评估 (Human-Centered Evaluation)

  • 结论 (Conclusion):论文系统阐述了医学LLMs的发展现状,指出了当前面临的挑战(如幻觉、缺乏统一评估标准、伦理问题等),并提出了未来的发展方向,包括增强模型对复杂医学术语的理解、向多模态大模型 (MLLMs) 演进、加强跨学科合作以及建立新的评估基准等

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:在医疗行业,信息处理至关重要,但从业者常常被海量的医学文献和复杂的病例记录所困扰 。以GPT系列为代表的大型语言模型 (LLMs) 凭借其卓越的文本生成、深度理解和复杂推理能力,正在以前所未有的深度和广度变革医疗行业,有望提高诊疗效率和智能化水平

  • 核心研究问题 (Research Questions, RQs):作为一篇综述,本文旨在回答以下核心问题:

    1. 医学LLMs的关键技术和训练方法是什么?

    2. LLMs在医学领域有哪些主要应用场景?

    3. 当前医学LLMs的评估方法有哪些?

    4. 应用医学LLMs带来了哪些益处,同时又面临哪些核心挑战?

    5. 未来医学LLMs的研究方向和发展策略是什么?

  • 核心研究问题是否是一个新的问题? 这个问题本身不是全新的,但本文的视角和分类框架是新的。论文通过对比现有综述(见Table 2),明确指出其创新性在于提供了更全面的覆盖范围、创新的分类方法(按训练技术和评估方法分类)以及更具战略性的趋势分析和发展建议

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 文献梳理:作者通过对比分析多篇2023至2025年发表的同类综述文章(如Table 2所示),总结了现有研究的侧重点,例如某些综述关注应用场景,某些关注伦理挑战,但缺乏一个统一的、从技术基础到评估、再到未来战略的完整图景

  • 研究缺口 (Gap):现有综述未能提供一个系统的、结构化的框架来对医学LLMs的训练方法评估范式进行分类和梳理。本文的研究缺口在于整合并提出一个全新的视角,即根据“预训练、微调、提示”三种技术路径对模型进行分类,并根据“机器评估、人为中心评估”两种范式对评估方法进行归纳,从而为该领域提供一个更清晰的知识图谱。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标

    1. 提供关于医学LLMs最新、最全面的综述,覆盖理论基础、方法学进展和多方面的医疗应用

    2. 创新性地对医学LLMs的训练方法和评估方法进行分类,为研究和归类提供新视角

    3. 深入分析当前医学LLM领域的技术趋势和挑战,并提出有针对性的发展战略

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 本文的研究范式是

    系统性文献综述 (Systematic Literature Review)

  • 作者明确阐述了其方法论

    1. 数据库检索:在Web of Science, DBLP, IEEE Xplore, Google Scholar等主流学术数据库中进行检索

    2. 关键词:使用 "LLM medicine" 和 "medical LLM" 作为核心关键词

    3. 时间范围:优先选择2020-2025年的文献,同时纳入了部分2020年之前有重要影响的基础性研究

    4. 筛选标准:制定了明确的纳入和排除标准,例如纳入提出创新方法或经过同行评审的文献,排除缺乏原创见解或与主题相关性低的文献

  • 论文中提到的解决方案之关键是什么? 本文的核心贡献不是一个技术解决方案,而是一个知识分类框架。其关键在于将庞杂的医学LLM研究清晰地归纳为三个技术路径和两个评估维度:

    • 技术路径分类

      1. 预训练 (Pre-training):使用大规模医学语料库(如EHR、医学论文)从头开始训练模型

      2. 微调 (Fine-tuning):在通用的预训练模型基础上,使用专门的医学数据集进行适配,包括监督微调(SFT)、指令微调(IFT)和参数高效微调(PEFT)

      3. 提示 (Prompting):在不改变模型参数的情况下,通过设计输入提示(Prompt)来引导模型适应医疗任务,包括上下文学习(ICL)、思维链(CoT)和检索增强生成(RAG)

  • 跟之前的方法相比有什么特点和优势? 这种分类框架的优势在于:

    1. 结构清晰:为理解和比较不同的医学LLM提供了一个清晰的逻辑结构。

    2. 指导实践:根据可用计算资源,为研究者提供了明确的技术路径选择(例如,资源充足的机构可以进行预训练或全量微调,资源有限的研究者可以采用PEFT或提示工程)

2.2. 数据来源与样本 (Data Source & Sample)

  • 作为一篇综述,本文的“数据”是已发表的学术文献。作者通过系统性检索,筛选出了与主题高度相关且质量较高的研究作为分析的“样本”。

2.3. 操作化与测量 (Operationalization & Measurement)

  • 本文对核心概念进行了清晰的操作化定义:

    • 医学LLM:指在通用LLM基础上,通过特定训练(预训练、微调或提示)以适应医疗领域特定需求的模型。

    • 评估方法被操作化为两个可测量的维度:

      1. 机器评估:使用NLP领域的标准化基准和定量指标(如Accuracy, F1-Score, ROUGE)来衡量模型性能

      2. 以人为中心的评估:通过人类专家或高级LLM(模拟人类判断)来评估模型输出的安全性、实用性和专业性等难以量化的维度

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • 应用广泛:LLMs在医学领域的应用场景极为广泛,涵盖临床决策支持、个性化精准医疗、医学教育、药物研发、医学影像分析、患者护理等多个方面

  • 技术路径多样:研究发现,不同的医学LLM采用了不同的技术路径。早期模型(如BioBERT)侧重于预训练 ,而近期大量模型(如ChatDoctor, MedAlpaca)则通过微调或提示工程来适配现有的大模型(如LLaMA, GPT-4)

  • 评估体系尚未统一:评估方法呈现多样化,但缺乏统一的黄金标准 。大多数研究结合了机器评估和人为评估,但评估维度和标准各不相同,使得跨模型性能比较变得困难

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图 3: Applications of the medical LLMs (医学LLMs的应用)

    • 该图清晰地将LLM的应用分为面向医疗专业人员面向患者两大类。

    • 对专业人员:应用包括医学文献分析、临床决策支持、药物设计、医学影像辅助诊断等

    • 对患者:应用包括化验单分析、症状评估、虚拟医疗助手、用药指导等

    • 解读:此图直观地展示了LLMs渗透到医疗健康全链条的潜力,从科研、诊断到患者的日常健康管理,几乎无处不在。

  • 表 4: Evaluation details of medical LLMs (医学LLMs的评估详情)

    • 该表是本文的核心“数据”汇总,系统性地整理了多个知名医学LLM的训练类型、评估任务类型(单轮问答、多轮问答、选择题)、机器评估指标和人为评估维度。

    • 解读

      1. 趋势:表格显示,大量2023-2024年的模型属于“微调”或“提示”类型,这反映了领域内的主流趋势是利用强大的基础模型进行快速适配,而非从零开始训练。

      2. 评估重点:在人为评估维度中,“专业性 (Professional)”、“安全性 (Safe)”、“有用性 (Helpful)” 是最常出现的关键词 。这表明医学领域对LLM的要求远超于一般领域的流畅性或创意性,而是将临床准确性和安全性放在首位。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 结果的意义:本综述的结果揭示了医学LLM领域正处在一个“潜力巨大但挑战严峻”的阶段。一方面,其应用前景广阔,有望解决现代医学面临的知识过载、个性化治疗不足等难题 。另一方面,幻觉、偏见、隐私和评估标准缺失等问题构成了其临床转化的巨大障碍

  • 回答研究问题:本文系统性地回答了引言中提出的所有研究问题。通过创新的分类框架,清晰地梳理了技术、应用、评估、优缺点和未来方向,为读者构建了一个关于医学LLM的全面知识体系。

4.2. 理论贡献 (Theoretical Contributions)

  • 对现有理论的贡献:本文最大的理论贡献是为医学LLM领域提供了一个新的分类学 (Taxonomy)。通过将模型按“训练方法”分类,将评估按“评估范式”分类,为后续研究提供了一个分析和定位工作的框架,有助于规范该领域的研究和讨论。

  • 对业界的影响:该研究为医疗AI领域的开发者和决策者提供了清晰的技术选型指南。例如,资源雄厚的机构可以选择微调开源模型以获得更高性能,而初创公司或个人研究者则可以利用先进的提示工程技术,在商业闭源模型上开发应用 。这种分层策略对推动技术落地具有很强的指导意义。

4.3. 实践启示 (Practical Implications)

  • 对实践者的建议

    • AI开发者:应重点关注数据的质量和偏见问题,并优先考虑模型的安全性和可解释性,而不仅仅是追求单一指标的提升。

    • 临床医生:应将LLM视为强大的辅助工具,而非替代品 。利用其信息检索和分析能力,但最终决策仍需依赖专业知识和临床经验。

    • 医院管理者和政策制定者:应着手建立统一的评估标准和监管框架,确保LLM在医疗领域的应用是安全、合规和公平的

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 本研究的局限性:作为一篇综述,其深度依赖于已发表文献的质量和广度。此外,由于技术发展极快,任何综述都可能存在一定的滞后性。

  • 未来研究方向 (由本文指出)

    1. 增强对复杂医学术语的理解:设计针对基因序列、病理图像等复杂医疗数据的自监督学习机制

    2. 向多模态LLM (MLLMs) 转型:整合文本、影像、生理信号等多模态数据,以实现更全面的诊断和监测

    3. 促进跨学科合作:培养同时懂医学和AI的“双语”人才,组建跨学科团队,打破学科壁垒

    4. 引入新的评估基准:开发更能反映真实临床场景复杂性的评估框架,超越简单的问答准确率

    5. 完善相关法律法规:建立清晰的监管、隐私保护和责任归属机制

5. 结论 (Conclusion)

  • 本文系统性地回顾了大型语言模型在医学领域的最新进展,深入分析了其训练技术、应用、优势和局限。通过创新性地将医学LLMs分为三类(预训练、微调、提示)并将其评估方法归为两类(机器评估、人为中心评估),为该领域提供了清晰的认知框架。最后,文章指出了未来发展的关键方向,包括向多模态模型演进、建立更完善的评估基准和法律法规,旨在为后续研究提供明确的指导和深刻的见解。

6. 核心参考文献 (Core References)

  • [1] Radford, A., et al. (2018). Improving language understanding by generative pre-training.

    • 链接: (OpenAI)

    • 重要性: 提出了GPT模型,是生成式预训练语言模型的开创性工作之一,为后续所有GPT系列和许多LLM奠定了基础

  • [2] Devlin, J., et al. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding.

    • 链接: (ACL)

    • 重要性: 提出了BERT模型,其双向编码器思想深刻影响了NLP领域,并衍生出BioBERT、ClinicalBERT等众多医学专用模型

  • [3] Singhal, K., et al. (2023). Large language models encode clinical knowledge.

    • 链接: (Nature)

    • 重要性: 该研究以Med-PaLM为案例,展示了通用大模型通过特定调整后,在医学问答任务上能达到甚至超越人类专家的水平,是医学LLM领域的一个里程碑式的工作

  • [4] Lewis, P., et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks.

    • 链接: (NeurIPS)

    • 重要性: 提出了RAG(检索增强生成)框架,是解决LLM幻觉和知识更新问题的关键技术之一,在对信息准确性要求极高的医疗领域尤为重要

No comments: