融合的前沿：医学与人工智能过去五年（2020-2025）的分析综述

摘要

本综述系统地综合了过去五年间医学人工智能领域的关键进展，这一时期见证了从任务专用型深度学习到大规模基础模型的范式转变。我们的分析围绕三大核心支柱展开：

(1) 医学影像与诊断：在该领域，视觉变换器（Vision Transformers）和“分割万物模型”（Segment Anything Model, SAM）等新兴架构正在挑战卷积神经网络（CNNs）的主导地位；
(2) 药物发现与开发：这一领域已被“后AlphaFold时代”重新定义，并通过生成式化学和图神经网络的应用得到加速；
(3) 临床自然语言处理：大型语言模型（LLMs）的出现彻底改变了非结构化数据的分析方式。

我们进一步审视了关键的赋能方法，包括用于保护隐私的协作式联邦学习（Federated Learning）和旨在建立临床信任的可解释人工智能（Explainable AI, XAI）。分析的最终落脚点是对持续存在的社会技术与伦理障碍进行批判性评估——例如工作流整合、数据偏见、监管障碍和法律责任——这些构成了真实世界临床转化的主要瓶颈。我们的结论是，尽管人工智能当前的影响更多是演进性的而非革命性的，但多模态基础模型的融合预示着一个日益个性化、预测性和参与性的医学未来。

引言：一种具有革命潜力的演进力量

在过去五年中，人工智能（AI）在医学领域的渗透已从一个充满希望的未来愿景，演变为一个日益融入临床现实的强大力量。然而，对其影响的定性仍然是一个充满争议的核心议题。本综述的核心论点是，当前阶段的医学人工智能最恰当的定性是“一种在现有循证医学范式内放大能力的演进力量”，但它同时蕴含着“潜在的革命性潜力”。

这种双重性并非矛盾，而是反映了技术能力与医疗系统复杂性之间深刻的相互作用。

本报告旨在深入剖析这一演进与革命并存的动态格局。十年前，医疗保健领域的主题是“推广健康记录的数字化”以提高效率；而未来十年，核心将是通过人工智能从这些数字化记录中提取“洞察和价值”。这一转变催生了两大核心技术浪潮：

从任务专用模型到基础模型的转变：早期医学人工智能的成功主要依赖于为单一、狭隘任务训练的专用模型。然而，近年来，我们见证了向大型、预训练的基础模型（Foundation Models）的根本性转变。诸如 AlphaFold、Segment Anything Model (SAM) 和大型语言模型（LLMs）等模型，经过在海量、多样化数据上的训练，能够被快速适配到众多下游医疗任务中。
从判别式AI到生成式AI的兴起：除了对现有数据进行分类和预测的判别式模型外，能够创造全新、合成数据的生成式AI（如GANs、扩散模型）的重要性日益凸显。其应用范围从解决数据稀缺性的数据增强，到设计全新的分子结构，为医学研究开辟了新的可能性。

为了给读者提供一个清晰的领域概览，下表系统性地梳理了现代医学中人工智能应用的主要类别。

医学领域	临床任务	主要AI/ML模型	核心贡献
放射学	图像分割、病灶检测	CNNs, ViT, SAM	提高诊断准确性，加速图像解读
病理学	癌细胞识别	CNNs, Deep Learning	降低癌症诊断的错误率
眼科学	视网膜病变检测	Deep Learning	实现高特异性和高灵敏度的眼底疾病筛查
肿瘤学	癌症预测、个性化治疗	ML, Deep Learning	提升癌症预测准确率，辅助治疗决策
药物发现	蛋白质结构、分子生成	AlphaFold, GANs	革命性地加速蛋白质结构解析，从头药物设计
临床运营	笔记摘要、信息提取	LLMs, NLP	自动化文档工作，减少行政负担

第一部分：应用的核心支柱

第1节彻底改变医学视觉：人工智能在影像与诊断中的应用

医学影像学是人工智能应用的先驱领域。在过去五年中，该领域不仅见证了AI模型在特定诊断任务上达到甚至超越人类专家的水平，更经历了一场深刻的技术架构和应用范式的变革。

1.1 架构的转变：从CNNs到视觉变换器（ViTs）

长期以来，卷积神经网络（CNNs）因其卓越的局部特征提取能力而成为医学影像分析的基石。然而，CNN的固有架构使其在捕捉图像中远距离的全局上下文关系方面存在局限性。视觉变换器（ViTs）的出现标志着一个重要的架构转变。ViTs 源于自然语言处理领域，它通过自注意力（self-attention）机制，能够权衡图像中所有部分之间的关系，从而捕捉全局的、长程的上下文信息。

1.2 基础模型范式：“分割万物模型”（SAM）的影响

“分割万物模型”（Segment Anything Model, SAM）的发布标志着医学视觉领域真正迎来了基础模型的范式革命。SAM 是一个在超过10亿个标注上训练的通用、可提示的分割模型。

零样本能力：SAM 最引人注目的特点是其强大的零样本（zero-shot）分割能力。尽管在分割边界清晰的器官表现出色，但在处理边界模糊的脑肿瘤时仍有局限。
临床适配：目前的研究热点是将 SAM 适配到医学影像的特殊需求（如3D容积数据），例如 SAM-Med3D、RefSAM3D 等项目。

1.3 深入临床应用

AI在具体临床科室的应用已经取得了显著成果：

放射学：AI 用于检测肺结节、诊断肺炎、脑肿瘤自动分割以及中风病灶识别。
病理学：在识别癌细胞转移方面，AI 将癌症诊断的错误率降低了 15-20%。
眼科学：深度学习系统在检测糖尿病视网膜病变方面表现出与人类专家相当的准确率。

第2节加速疗法创新：人工智能在药物发现中的应用

人工智能正在通过构建一个数据驱动的、整合的“数字生物学”新范式，将过去线性的药物研发阶段连接成一个高效的闭环系统。

2.1 “后AlphaFold时代”

AlphaFold 的出现解决了蛋白质结构预测这一基础科学难题。现在的研究前沿已转向预测蛋白质的动态构象系综和复合物结构。

2.2 生成式化学与图神经网络

生成式 AI 正在实现从头分子设计，通过多目标优化生成具有特定性质的全新分子。同时，图神经网络（GNNs）已成为预测药物-靶点相互作用（DTI）的技术标准。

第3节解锁非结构化数据：NLP与大型语言模型

随着 GPT-4 等大型语言模型（LLMs）的问世，临床自然语言处理经历了深刻变革。LLMs 在零样本情况下完成复杂任务的能力，极大减少了对数据标注的依赖。

信息提取：自动从临床笔记中提取症状、诊断和治疗方案。
临床文档与摘要：自动生成出院小结和病历摘要，减轻医生文书负担。
挑战：需解决“幻觉”问题，通过检索增强生成（RAG）技术确保事实准确性。

第二部分：赋能方法论与总体挑战

第4节联邦学习与数据孤岛

为了在不泄露隐私的前提下利用多中心数据，联邦学习（Federated Learning）提供了一种“数据不动，模型动”的解决方案。尽管在放射学等领域表现出鲁棒性，但隐私风险（模型逆向攻击）、技术障碍（数据异构性）以及复杂的治理机制仍阻碍其大规模落地。

第5节打开黑箱：可解释人工智能（XAI）

在医疗决策中，AI 的“黑箱”性质是信任的主要障碍。XAI 技术（如 SHAP, LIME, Grad-CAM）旨在使决策过程透明化。这不仅有助于建立信任和问责，未来甚至可能帮助人类发现新的生物标志物。

结论：迈向多模态与个性化医疗

医学人工智能已从单一算法演变为复杂的社会技术生态系统。未来的轨迹指向多模态基础模型——整合影像、文本、基因组学数据，实现真正的个性化医疗。要跨越从代码到临床的“最后一公里”，我们必须克服集成工作流、监管治理、成本效益以及伦理偏见等深刻的非技术挑战。

表2：医疗保健领域基础模型的比较分析

基础模型	主要模态	核心功能	在医学中的主要局限性
AlphaFold	蛋白质序列	3D结构预测	无法捕捉动态构象和相互作用
SAM	图像	图像分割	2D限制，复杂场景需微调
临床LLM	文本	摘要与生成	事实幻觉、缺乏推理验证