论文信息
标题 (Title): MedBench v4: A Robust and Scalable Benchmark for Evaluating Chinese Medical Language Models, Multimodal Models, and Intelligent Agents 作者 (Authors): Jinru Ding, Lu Lu, Chao Ding 等 (共 19 位作者) 机构 (Affiliations): 上海人工智能实验室 (Shanghai AI Laboratory), 复旦大学传染病与生物安全研究所, 上海市卫生发展研究中心, 伦敦帝国理工学院 发表年份 (Year): 2025 (arXiv preprint: 2511.14439v2) 原文链接 (URL): https://arxiv.org/abs/2511.14439
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective): 现有的医疗AI基准测试(如CMExam, CBLUE)主要侧重于静态的考试题型,缺乏对多模态能力、临床工作流整合以及安全伦理的评估,无法真实反映模型在临床环境中的就绪程度。MedBench v4 旨在构建一个国家级的、基于云端的动态评估基础设施,以填补这一空白。 方法 (Methods): 构建了包含超过 700,000 个经专家审核任务的测试库,覆盖 24 个一级专科和 91 个二级专科。设立了 LLM、多模态模型、智能体 (Agents) 三大独立赛道。采用“轮换评估池”机制防止数据泄露,并使用经过千名医生校准的 LLM-as-a-judge (以 Qwen2.5-72B 为基座) 进行自动化评分。 结果 (Results): 评估了 15 个前沿模型。Claude Sonnet 4.5 在基础 LLM 中表现最佳(62.5/100),但基础模型的安全评分普遍极低(平均 18.4/100)。GPT-5 在多模态赛道领先。最关键的发现是,基于相同基座的 Agent(智能体)系统 能将综合得分提升至 85.3/100,并将安全得分从 18.4 飙升至 88.9。 结论 (Conclusion): 基础模型在多模态推理和安全性上仍有显著缺陷,但通过引入 Agentic Orchestration(智能体编排),即结合工具使用、安全护栏和多步推理,可以显著提升临床应用的可用性和安全性。MedBench v4 为医疗AI的准入和审计提供了一个实用的参考标准。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
背景: 医疗大模型和智能体正从单纯的问答转向执行复杂的临床任务(如病历生成、辅助诊断)。然而,现有的评估体系滞后,无法衡量模型在真实临床工作流中的表现。 核心问题: 现有基准(如 CBLUE, HealthBench)多为静态数据集,容易过拟合。 缺乏对 多模态数据(影像+文本)和 Agent行为(工具调用、复杂规划)的综合评估。 模型的 安全性与伦理 在现有评分体系中占比过低,但这恰恰是临床应用的核心门槛。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有基准: CMExam, CBLUE 等主要关注医学知识记忆(考试题);MultiMedQA 虽有改进但主要针对英文;VQA-RAD 等多模态数据集规模小且交互性差。 研究缺口: 缺乏一个结合 中文语境、覆盖 全临床科室、支持 动态轮换 且包含 Agent能力评估 的综合性平台。
1.3. 研究目标 (Objectives)
建立一个“AI-Ready”的临床数据管线和评测平台。 提供 LLM、多模态、Agent 三个维度的全方位评估。 通过与中国 500 多家医疗机构合作,确保评估标准的临床权威性。
2. 研究设计与方法 (Methodology)
2.1. 平台架构与数据机制 (Platform & Data Pipeline)
云端评测: 采用 API 提交或本地运行后上传结果的模式,测试集不公开,且采用 动态轮换机制 (Rotating Evaluation Pool),从 36 个数据集中分层采样,每季度更新,防止“刷榜”。 数据来源: 汇集了来自中国 500 多家合作机构(三甲医院、医学会)的脱敏数据,经过多轮专家审核(Multi-round Expert Auditing)。
2.2. 三大评估赛道 (Three Evaluation Tracks)
大语言模型 (LLM) 赛道: 包含 5 个维度(理解、生成、问答、推理、安全与伦理)。特别强调与中国卫健委应用场景的对齐。 多模态模型 (Multimodal) 赛道: 包含 10 个数据集,考察视觉感知(病灶检测)、跨模态理解(报告生成)和临床决策支持(基于影像的治疗规划)。 智能体 (Agent) 赛道: 包含 14 个数据集,考察 6 大能力:任务分解、工具/API 操作、意图识别、长上下文记忆、多智能体协作、对抗性防御。
2.3. 评分方法 (Scoring Methodology)
LLM-as-a-Judge: 使用 Qwen2.5-72B-Instruct 作为裁判模型。 评分标准: 设计了详细的 Rubric(评分细则),从医学正确性、专业性、合规性等方面进行 0-5 分打分。 人类校准: 随机抽取 20% 的样本由 1000 名持证医生进行评分,结果显示 LLM 裁判与人类专家的一致性很高(Cohen’s κ > 0.82)。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
Agent 优于 Base Model: 同样的基座模型,封装成 Agent 后,性能有质的飞跃(平均分从 54.1 提升至 79.8)。 安全性是最大短板: 基础 LLM 在安全与伦理任务上平均得分仅为 18.4/100,远低于知识推理类任务(~60分)。 多模态推理滞后: 多模态模型在感知任务(识别病灶)上表现尚可,但在跨模态推理(结合临床背景做诊断)上表现较弱。
3.2. 关键数据解读 (Interpretation of Key Data)
LLM 赛道: Claude Sonnet 4.5 (62.5/100) 排名第一,其次是 Grok4 和 o4-mini。 即便是最强的模型,在没有 Agent 框架约束时,也难以处理复杂的安全合规要求。
多模态赛道: GPT-5 (54.9/100) 表现最佳 (注:论文中直接使用了 GPT-5 这一名称,指代 OpenAI 的下一代或特定版本模型),其次是 Gemini 2.5 Pro。 国产专用模型(如 HuatuoGPT-Vision)在通用多模态任务上仍落后于最强通用模型。
Agent 赛道: 基于 Claude Sonnet 4.5 的 Agent 达到 85.3/100 的总分。 安全性得分暴涨: Agent 架构通过引入安全护栏和多步验证,将安全得分提升至 88.9/100。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation)
Agent 的必要性: 结果有力地证明了在医疗场景中,单纯依赖基础模型的“聊天”模式是不可行的。必须构建包含工具使用、记忆管理和安全拦截的 Agent 系统 才能达到临床可用的门槛。 能力不均衡: 模型在知识记忆上已经很强,但在通过多模态信息进行综合推理(类似医生看片结合病史)方面仍是弱项。
4.2. 理论与实践贡献 (Contributions)
基础设施创新: 提出了“动态轮换”和“云端评测”机制,解决了静态榜单数据泄露的问题。 对齐监管: 评估指标直接对齐中国医疗AI的监管要求和临床指南,为医院采购和政府监管提供了量化工具。
4.3. 局限性 (Limitations)
数据偏差: 数据主要来自三甲医院,可能无法完全覆盖基层医疗资源匮乏环境下的长尾病例。 裁判偏差: 尽管经过校准,LLM 裁判仍可能存在潜在偏见。 安全性验证: Benchmark 上的高分并不等同于真实世界临床应用的绝对安全,仍需前瞻性验证。
5. 结论 (Conclusion)
6. 核心参考文献 (Core References)
CMExam: Liu, J., et al. (2023). Benchmarking large language models on CMExam. arXiv. (对比的静态基准) CBLUE: Zhang, N., et al. (2022). CBLUE: A Chinese biomedical language understanding evaluation benchmark. ACL. (对比的中文基准) MultiMedQA: Singhal, K., et al. (2023). Large language models encode clinical knowledge. Nature. (国际对标基准) HealthBench: Arora, R. K., et al. (2025). HealthBench: Evaluating large language models towards improved human health. arXiv. (最新的同类工作)
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment