Digital Health Insider: MedBench v4：评估中文医疗大语言模型、多模态模型及智能体的鲁棒且可扩展的基准

论文信息

标题 (Title): MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents

作者 (Authors): Jinru Ding, Lu Lu, Chao Ding 等 (共 19 位作者)

机构 (Affiliations): 上海人工智能实验室 (Shanghai AI Laboratory), 复旦大学传染病与生物安全研究所, 上海市卫生发展研究中心, 伦敦帝国理工学院

发表年份 (Year): 2025 (arXiv preprint: 2511.14439v2)

原文链接 (URL): https://arxiv.org/abs/2511.14439

结构化摘要 (Structured Abstract)

背景/目标 (Background/Objective): 现有的医疗AI基准测试（如CMExam, CBLUE）主要侧重于静态的考试题型，缺乏对多模态能力、临床工作流整合以及安全伦理的评估，无法真实反映模型在临床环境中的就绪程度。MedBench v4 旨在构建一个国家级的、基于云端的动态评估基础设施，以填补这一空白。

方法 (Methods): 构建了包含超过 700,000 个经专家审核任务的测试库，覆盖 24 个一级专科和 91 个二级专科。设立了 LLM、多模态模型、智能体 (Agents) 三大独立赛道。采用“轮换评估池”机制防止数据泄露，并使用经过千名医生校准的 LLM-as-a-judge (以 Qwen2.5-72B 为基座) 进行自动化评分。

结果 (Results): 评估了 15 个前沿模型。Claude Sonnet 4.5 在基础 LLM 中表现最佳（62.5/100），但基础模型的安全评分普遍极低（平均 18.4/100）。GPT-5 在多模态赛道领先。最关键的发现是，基于相同基座的 Agent（智能体）系统 能将综合得分提升至 85.3/100，并将安全得分从 18.4 飙升至 88.9。

结论 (Conclusion): 基础模型在多模态推理和安全性上仍有显著缺陷，但通过引入 Agentic Orchestration（智能体编排），即结合工具使用、安全护栏和多步推理，可以显著提升临床应用的可用性和安全性。MedBench v4 为医疗AI的准入和审计提供了一个实用的参考标准。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

背景: 医疗大模型和智能体正从单纯的问答转向执行复杂的临床任务（如病历生成、辅助诊断）。然而，现有的评估体系滞后，无法衡量模型在真实临床工作流中的表现。

核心问题:

现有基准（如 CBLUE, HealthBench）多为静态数据集，容易过拟合。

缺乏对 多模态数据（影像+文本）和 Agent行为（工具调用、复杂规划）的综合评估。

模型的 安全性与伦理 在现有评分体系中占比过低，但这恰恰是临床应用的核心门槛。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

现有基准: CMExam, CBLUE 等主要关注医学知识记忆（考试题）；MultiMedQA 虽有改进但主要针对英文；VQA-RAD 等多模态数据集规模小且交互性差。

研究缺口: 缺乏一个结合 中文语境、覆盖 全临床科室、支持 动态轮换 且包含 Agent能力评估 的综合性平台。

1.3. 研究目标 (Objectives)

建立一个“AI-Ready”的临床数据管线和评测平台。

提供 LLM、多模态、Agent 三个维度的全方位评估。

通过与中国 500 多家医疗机构合作，确保评估标准的临床权威性。

2. 研究设计与方法 (Methodology)

2.1. 平台架构与数据机制 (Platform & Data Pipeline)

云端评测: 采用 API 提交或本地运行后上传结果的模式，测试集不公开，且采用 动态轮换机制 (Rotating Evaluation Pool)，从 36 个数据集中分层采样，每季度更新，防止“刷榜”。

数据来源: 汇集了来自中国 500 多家合作机构（三甲医院、医学会）的脱敏数据，经过多轮专家审核（Multi-round Expert Auditing）。

2.2. 三大评估赛道 (Three Evaluation Tracks)

大语言模型 (LLM) 赛道: 包含 5 个维度（理解、生成、问答、推理、安全与伦理）。特别强调与中国卫健委应用场景的对齐。

多模态模型 (Multimodal) 赛道: 包含 10 个数据集，考察视觉感知（病灶检测）、跨模态理解（报告生成）和临床决策支持（基于影像的治疗规划）。

智能体 (Agent) 赛道: 包含 14 个数据集，考察 6 大能力：任务分解、工具/API 操作、意图识别、长上下文记忆、多智能体协作、对抗性防御。

2.3. 评分方法 (Scoring Methodology)

LLM-as-a-Judge: 使用 Qwen2.5-72B-Instruct 作为裁判模型。

评分标准: 设计了详细的 Rubric（评分细则），从医学正确性、专业性、合规性等方面进行 0-5 分打分。

人类校准: 随机抽取 20% 的样本由 1000 名持证医生进行评分，结果显示 LLM 裁判与人类专家的一致性很高（Cohen’s κ > 0.82）。

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

Agent 优于 Base Model: 同样的基座模型，封装成 Agent 后，性能有质的飞跃（平均分从 54.1 提升至 79.8）。

安全性是最大短板: 基础 LLM 在安全与伦理任务上平均得分仅为 18.4/100，远低于知识推理类任务（~60分）。

多模态推理滞后: 多模态模型在感知任务（识别病灶）上表现尚可，但在跨模态推理（结合临床背景做诊断）上表现较弱。

3.2. 关键数据解读 (Interpretation of Key Data)

LLM 赛道:

Claude Sonnet 4.5 (62.5/100) 排名第一，其次是 Grok4 和 o4-mini。

即便是最强的模型，在没有 Agent 框架约束时，也难以处理复杂的安全合规要求。

多模态赛道:

GPT-5 (54.9/100) 表现最佳 (注：论文中直接使用了 GPT-5 这一名称，指代 OpenAI 的下一代或特定版本模型)，其次是 Gemini 2.5 Pro。

国产专用模型（如 HuatuoGPT-Vision）在通用多模态任务上仍落后于最强通用模型。

Agent 赛道:

基于 Claude Sonnet 4.5 的 Agent 达到 85.3/100 的总分。

安全性得分暴涨: Agent 架构通过引入安全护栏和多步验证，将安全得分提升至 88.9/100。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation)

Agent 的必要性: 结果有力地证明了在医疗场景中，单纯依赖基础模型的“聊天”模式是不可行的。必须构建包含工具使用、记忆管理和安全拦截的 Agent 系统 才能达到临床可用的门槛。

能力不均衡: 模型在知识记忆上已经很强，但在通过多模态信息进行综合推理（类似医生看片结合病史）方面仍是弱项。

4.2. 理论与实践贡献 (Contributions)

基础设施创新: 提出了“动态轮换”和“云端评测”机制，解决了静态榜单数据泄露的问题。

对齐监管: 评估指标直接对齐中国医疗AI的监管要求和临床指南，为医院采购和政府监管提供了量化工具。

4.3. 局限性 (Limitations)

数据偏差: 数据主要来自三甲医院，可能无法完全覆盖基层医疗资源匮乏环境下的长尾病例。

裁判偏差: 尽管经过校准，LLM 裁判仍可能存在潜在偏见。

安全性验证: Benchmark 上的高分并不等同于真实世界临床应用的绝对安全，仍需前瞻性验证。

5. 结论 (Conclusion)

MedBench v4 展示了当前医疗 AI 的现状：基础模型在知识上已相当渊博，但在行动和安全上仍不成熟。通过将模型封装为 智能体 (Agent)，可以显著弥补这些短板。该基准不仅仅是一个排行榜，更是一个推动医疗 AI 从“玩具”走向“工具”的基础设施，强调了在临床部署中必须重视 工作流整合 和 安全合规。

6. 核心参考文献 (Core References)

CMExam: Liu, J., et al. (2023). Benchmarking large language models on CMExam. arXiv. (对比的静态基准)

CBLUE: Zhang, N., et al. (2022). CBLUE: A Chinese biomedical language understanding evaluation benchmark. ACL. (对比的中文基准)

MultiMedQA: Singhal, K., et al. (2023). Large language models encode clinical knowledge. Nature. (国际对标基准)

HealthBench: Arora, R. K., et al. (2025). HealthBench: Evaluating large language models towards improved human health. arXiv. (最新的同类工作)

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MedBench v4：评估中文医疗大语言模型、多模态模型及智能体的鲁棒且可扩展的基准