论文信息
- 标题 (Title): MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents
- 作者 (Authors): Jinru Ding, Lu Lu, Chao Ding 等 (共 19 位作者)
- 机构 (Affiliations): 上海人工智能实验室 (Shanghai AI Laboratory), 复旦大学传染病与生物安全研究所, 上海市卫生发展研究中心, 伦敦帝国理工学院
- 发表年份: 2025 (arXiv preprint: 2511.14439v2)
- 原文链接: https://arxiv.org/abs/2511.14439
结构化摘要 (Structured Abstract)
- 背景/目标: 现有的医疗AI基准测试(如 CMExam, CBLUE)主要侧重于静态的考试题型,缺乏对多模态能力、临床工作流整合以及安全伦理的评估,无法真实反映模型在临床环境中的就绪程度。MedBench v4 旨在构建一个国家级的、基于云端的动态评估基础设施,以填补这一空白。
- 方法: 构建了包含超过 700,000 个经专家审核任务的测试库,覆盖 24 个一级专科和 91 个二级专科。设立了 LLM、多模态模型、智能体 (Agents) 三大独立赛道。采用“轮换评估池”机制防止数据泄露,并使用经过千名医生校准的 LLM-as-a-judge (以 Qwen2.5-72B 为基座) 进行自动化评分。
- 结果: 评估了 15 个前沿模型。Claude Sonnet 4.5 在基础 LLM 中表现最佳(62.5/100),但基础模型的安全评分普遍极低(平均 18.4/100)。GPT-5 在多模态赛道领先。最关键的发现是,基于相同基座的 Agent(智能体)系统 能将综合得分提升至 85.3/100,并将安全得分从 18.4 飙升至 88.9。
- 结论: 基础模型在多模态推理和安全性上仍有显著缺陷,但通过引入 Agentic Orchestration(智能体编排),即结合工具使用、安全护栏和多步推理,可以显著提升临床应用的可用性和安全性。MedBench v4 为医疗AI的准入和审计提供了一个实用的参考标准。
1. 引言 (Introduction)
1.1. 研究背景与核心问题
背景: 医疗大模型和智能体正从单纯的问答转向执行复杂的临床任务(如病历生成、辅助诊断)。然而,现有的评估体系滞后,无法衡量模型在真实临床工作流中的表现。
核心问题:
- 现有基准(如 CBLUE, HealthBench)多为静态数据集,容易过拟合。
- 缺乏对 多模态数据(影像+文本)和 Agent行为(工具调用、复杂规划)的综合评估。
- 模型的 安全性与伦理 在现有评分体系中占比过低,但这恰恰是临床应用的核心门槛。
1.2. 文献综述与研究缺口
- 现有基准: CMExam, CBLUE 等主要关注医学知识记忆(考试题);MultiMedQA 虽有改进但主要针对英文;VQA-RAD 等多模态数据集规模小且交互性差。
- 研究缺口: 缺乏一个结合 中文语境、覆盖 全临床科室、支持 动态轮换 且包含 Agent能力评估 的综合性平台。
1.3. 研究目标
- 建立一个“AI-Ready”的临床数据管线和评测平台。
- 提供 LLM、多模态、Agent 三个维度的全方位评估。
- 通过与中国 500 多家医疗机构合作,确保评估标准的临床权威性。
2. 研究设计与方法 (Methodology)
2.1. 平台架构与数据机制
- 云端评测: 采用 API 提交或本地运行后上传结果的模式,测试集不公开,且采用 动态轮换机制 (Rotating Evaluation Pool),从 36 个数据集中分层采样,每季度更新,防止“刷榜”。
- 数据来源: 汇集了来自中国 500 多家合作机构(三甲医院、医学会)的脱敏数据,经过多轮专家审核(Multi-round Expert Auditing)。
2.2. 三大评估赛道
- 大语言模型 (LLM) 赛道: 包含 5 个维度(理解、生成、问答、推理、安全与伦理)。特别强调与中国卫健委应用场景的对齐。
- 多模态模型 (Multimodal) 赛道: 包含 10 个数据集,考察视觉感知(病灶检测)、跨模态理解(报告生成)和临床决策支持(基于影像的治疗规划)。
- 智能体 (Agent) 赛道: 包含 14 个数据集,考察 6 大能力:任务分解、工具/API 操作、意图识别、长上下文记忆、多智能体协作、对抗性防御。
2.3. 评分方法
- LLM-as-a-Judge: 使用 Qwen2.5-72B-Instruct 作为裁判模型。
- 评分标准: 设计了详细的 Rubric(评分细则),从医学正确性、专业性、合规性等方面进行 0-5 分打分。
- 人类校准: 随机抽取 20% 的样本由 1000 名持证医生进行评分,结果显示 LLM 裁判与人类专家的一致性很高(Cohen’s κ > 0.82)。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述
- Agent 优于 Base Model: 同样的基座模型,封装成 Agent 后,性能有质的飞跃(平均分从 54.1 提升至 79.8)。
- 安全性是最大短板: 基础 LLM 在安全与伦理任务上平均得分仅为 18.4/100,远低于知识推理类任务(~60分)。
- 多模态推理滞后: 多模态模型在感知任务(识别病灶)上表现尚可,但在跨模态推理(结合临床背景做诊断)上表现较弱。
3.2. 关键数据解读
LLM 赛道:
- Claude Sonnet 4.5 (62.5/100) 排名第一,其次是 Grok4 和 o4-mini。
- 即便是最强的模型,在没有 Agent 框架约束时,也难以处理复杂的安全合规要求。
多模态赛道:
- GPT-5 (54.9/100) 表现最佳 (注:论文中直接使用了 GPT-5 这一名称,指代 OpenAI 的下一代或特定版本模型),其次是 Gemini 2.5 Pro。
- 国产专用模型(如 HuatuoGPT-Vision)在通用多模态任务上仍落后于最强通用模型。
Agent 赛道:
- 基于 Claude Sonnet 4.5 的 Agent 达到 85.3/100 的总分。
- 安全性得分暴涨: Agent 架构通过引入安全护栏和多步验证,将安全得分提升至 88.9/100。
4. 讨论 (Discussion)
4.1. 结果深度解读
- Agent 的必要性: 结果有力地证明了在医疗场景中,单纯依赖基础模型的“聊天”模式是不可行的。必须构建包含工具使用、记忆管理和安全拦截的 Agent 系统 才能达到临床可用的门槛。
- 能力不均衡: 模型在知识记忆上已经很强,但在通过多模态信息进行综合推理(类似医生看片结合病史)方面仍是弱项。
4.2. 理论与实践贡献
- 基础设施创新: 提出了“动态轮换”和“云端评测”机制,解决了静态榜单数据泄露的问题。
- 对齐监管: 评估指标直接对齐中国医疗AI的监管要求和临床指南,为医院采购和政府监管提供了量化工具。
4.3. 局限性
- 数据偏差: 数据主要来自三甲医院,可能无法完全覆盖基层医疗资源匮乏环境下的长尾病例。
- 裁判偏差: 尽管经过校准,LLM 裁判仍可能存在潜在偏见。
- 安全性验证: Benchmark 上的高分并不等同于真实世界临床应用的绝对安全,仍需前瞻性验证。
5. 结论 (Conclusion)
MedBench v4 展示了当前医疗 AI 的现状:基础模型在知识上已相当渊博,但在行动和安全上仍不成熟。通过将模型封装为 智能体 (Agent),可以显著弥补这些短板。
该基准不仅仅是一个排行榜,更是一个推动医疗 AI 从“玩具”走向“工具”的基础设施,强调了在临床部署中必须重视 工作流整合 和 安全合规。
核心参考文献
- CMExam: Liu, J., et al. (2023). Benchmarking large language models on CMExam. arXiv. (对比的静态基准)
- CBLUE: Zhang, N., et al. (2022). CBLUE: A Chinese biomedical language understanding evaluation benchmark. ACL. (对比的中文基准)
- MultiMedQA: Singhal, K., et al. (2023). Large language models encode clinical knowledge. Nature. (国际对标基准)
- HealthBench: Arora, R. K., et al. (2025). HealthBench: Evaluating large language models towards improved human health. arXiv. (最新的同类工作)
– EOF –
转载须以超链接形式标明文章原始出处和作者信息及版权声明。