DentalBench:用于评测和提升大语言模型在双语牙科领域理解能力的基准

论文信息

  • 标题 (Title):DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding

  • 作者 (Authors):Hengchuan Zhu, Yihuan Xu, Yichen Li, Zijie Meng, Zuozhu Liu

  • 发表年份 (Year):2025

  • 原文链接 (URL)https://arxiv.org/abs/2508.20416

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):尽管通用大型语言模型(LLM)和医疗大语言模型(Med-LLM)在通用医学基准上表现出色,但它们在需要更深领域知识的专科领域(如牙科)的能力,因缺乏针对性的评估资源而未被充分探索 。本研究旨在通过引入首个全面的双语牙科基准 DentalBench,来评估和推动 LLM 在该领域的发展

  • 方法 (Methods):研究构建了 DentalBench,它包含两个核心部分:(1) DentalQA,一个包含36,597个问题的英汉双语问答基准,覆盖4种任务类型和16个牙科子领域 ;(2)DentalCorpus,一个包含3.37亿词元的大规模、高质量双语语料库,专为牙科领域的监督微调(SFT)和检索增强生成(RAG)而设计

  • 结果 (Results):研究对14个LLM(包括闭源、开源和医疗专用模型)的评估揭示了它们在不同任务类型和语言上的显著性能差距 。在Qwen-2.5-3B模型上的进一步实验表明,使用DentalCorpus进行领域自适应能大幅提升模型性能,尤其是在知识密集型和术语密集型任务上

  • 结论 (Conclusion):DentalBench 为评估牙科领域的知识驱动型语言模型提供了一个宝贵的资源 。研究证明,领域自适应对于开发面向特定医疗应用的、值得信赖且有效的 LLM 至关重要


1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:大型语言模型(LLM)在医学领域已展现出专家级的性能 。然而,对于像牙科这样高度专业化的医学分支,LLM 的性能评估仍然有限 。牙科涉及多个子领域和复杂的操作,对人工智能的集成有巨大需求

  • 核心研究问题:当前 LLM 在牙科领域面临的核心问题是缺乏针对性的评估资源 。通用医学语料库或基准中牙科专业知识的匮乏,不仅阻碍了对现有 LLM 局限性的理解,也限制了为临床应用开发稳健系统的进程

  • 是否是新问题:这个问题并非全新,但本文的创新之处在于,它首次为牙科这一专科领域创建了一个全面的、双语的基准和配套语料库,以系统性地解决上述问题

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究:已有研究表明 LLM 在通用医学基准上表现优异 ,并且一些深度学习技术已被探索用于牙科领域

  • 研究缺口:本文明确指出的研究缺口是牙科领域评估资源的缺失。现有的通用医疗基准无法细粒度地评估 LLM 在牙科等专科领域的性能,这导致对模型能力的理解不足,并阻碍了其在口腔健康领域的应用开发

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标

    1. 引入DentalQA,首个用于牙科语言理解的双语基准,包含36,597个问题,覆盖4种任务类型和16个子领域

    2. 创建DentalCorpus,一个包含3.37亿词元的大规模、高质量语料库,用于牙科领域的模型自适应

    3. 系统性地评估14个主流 LLM 在 DentalQA 上的表现,揭示其性能差距

    4. 通过实验证明,使用 DentalCorpus 进行领域自适应能显著提升通用 LLM 在牙科领域的性能

  • 核心假设/命题:核心假设是,当前主流 LLM 在专业的牙科任务上存在显著的知识和能力短板,而通过领域自适应(即利用专门的牙科语料库进行微调或检索增强)可以有效弥补这一差距,从而大幅提升模型性能


2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究采用定量 (Quantitative) 的基准测试范式。

  • 方法论

    1. DentalQA 基准构建:构建了一个包含36,597个英汉双语问题的高质量基准 。数据源包括公开的医疗问答数据集、中国国家牙科执业医师资格考试题、牙科教科书以及真实的医患互动记录 。数据集覆盖4种任务格式:单项选择题 (MCQ)、多项选择题 (MAQ)、开放式问题 (OEQ) 和术语定义题 (DEF)

    2. DentalCorpus 语料库构建:构建了一个双语语料库以支持领域自适应 。数据源包括40本中文牙科教科书、从PubMed检索的54,651篇英文全文文章,以及从其他大型医疗数据集中筛选的内容

    3. 领域自适应实验:选择 Qwen-2.5-3B-Instruct 模型,采用三种策略进行领域自适应:(a) 监督微调 (SFT);(b) 检索增强生成 (RAG);(c) SFT与RAG结合

  • 解决方案之关键:关键在于创建了一个双管齐下的解决方案:一个用于“评估”的基准(DentalQA)和一个用于“提升”的语料库(DentalCorpus)。这种设计不仅能量化现有模型的短板,还提供了一条清晰的技术路径来解决这些短板。

  • 与之前方法的特点和优势:与依赖通用医学基准的评估不同,DentalBench 提供了专为牙科领域设计的、细粒度的、多任务、双语的评估框架。其配套的 DentalCorpus 也是一个大规模、经过专业筛选的高质量资源,使得领域自适应研究得以系统性地进行。

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源

    • DentalQA:英文部分来自 MMLU、MedQA 等7个公开医疗问答数据集,并从 UMLS 检索术语定义 。中文部分来自中国国家牙科执业医师资格考试(1999-2021)、34本牙科教科书及辅导材料,以及181个真实的牙齿矫正医患互动问答

    • DentalCorpus:来源包括40本中文牙科教科书、通过28个MeSH词条从PubMed检索的5万余篇英文文章,以及经过关键词过滤的MMedC和MedRAG数据集

  • 样本特征:DentalQA 共包含 36,597 个问题,其中中文22,297个,英文14,300个,覆盖16个牙科子领域 。DentalCorpus 最终包含3.37亿词元,其中英文部分有106万个文本块(3.19亿词元),中文部分有6.63万个文本块(1827万词元)

2.3. 操作化与测量 (Operationalization & Measurement)

  • 关键变量测量

    • MCQ:使用准确率(Accuracy)进行评估

    • MAQ:使用准确率、精确率(Precision)、召回率(Recall)和 F1 分数进行评估

    • OEQ 和 DEF:使用 BERTScore F1 分数进行评估,该指标衡量生成文本与参考答案的语义相似度


3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  1. 性能因语言和任务而异:在中文基准上,DeepSeek-R1 在选择题(MCQ和MAQ)上表现最佳;而在英文基准上,GPT-4o 领先 。然而,所有模型在开放式任务(OEQ和DEF)上的表现均远逊于选择题,这突显了它们在领域特定的生成式推理和术语理解方面的挑战

  2. 通用模型优于医疗模型:出乎意料的是,通用LLM(如Llama-3.1-8B)在多项选择题任务上持续优于其医疗领域的对应版本,这表明通用的医疗微调可能未充分覆盖牙科领域的专业知识

  3. 模型规模的影响:在Qwen-2.5系列中,扩大模型规模对 factual recall 类任务(MCQ, MAQ)有显著提升,但对生成式推理任务(OEQ, DEF)的增益有限

  4. 领域自适应效果显著:无论是SFT还是RAG,都能提升模型在选择题上的表现。RAG对开放式任务的提升更大。将两者结合(SFT+RAG)在选择题上产生了叠加增益

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图 1: DentalBench 概览

    • 内容解读:该图全面展示了 DentalBench 的构成。左侧是数据来源和构建流程,中间是四种任务类型的双语示例,右侧是36,597个问题在16个牙科子领域的分布情况

    • 揭示的关系:该图清晰地展示了 DentalBench 的广度和深度,从数据来源的权威性(考试、教科书)到任务的多样性,再到子领域的全面覆盖,证明了其作为一个综合性基准的价值。

  • 表 1: DentalQA 上的总体性能

    • 内容解读:该表是核心的定量结果,展示了14个LLM在DentalQA-ZH(中文)和DentalQA-EN(英文)各项任务上的得分,并特别列出了对Qwen-2.5-3B进行领域自适应后的性能变化。

    • 关键数据

      • 基线性能:在中文MCQ任务上,DeepSeek-R1 取得了最高的 76.06% 准确率。在英文MCQ上,GPT-4o73.98% 领先

      • 领域自适应效果:以中文MCQ为例,基准 Qwen2.5-3B 的准确率为 48.63%。经过 SFT 后提升至 54.58%,使用 RAG 提升至 54.45%,而 SFT+RAG 结合则达到了 60.06%,相比基线提升了超过11个百分点 。这有力地证明了领域自适应的有效性。


4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 实验结果清晰地揭示了即使是顶尖的通用 LLM 在面对高度专业化的牙科知识时也存在明显的短板。它们在需要精确事实回忆的多项选择题上表现尚可,但在需要深度理解和生成专业内容的开放式问题上则普遍表现不佳。这表明,模型的通用能力无法直接迁移到专科领域。此外,通用医疗模型的表现不及通用模型,可能意味着当前的医疗微调数据集中,牙科内容的覆盖率和权重不足。

4.2. 理论贡献 (Theoretical Contributions)

  • 创建首个牙科领域综合基准:本文最核心的贡献是创建并发布了 DentalBench,这是首个为牙科领域设计的、全面的、双语的评估基准和配套语料库 。它填补了专科医学领域评估资源的空白,为后续研究提供了标准化的测试平台。

  • 验证领域自适应的必要性:研究通过详实的实验,有力地证明了在专科医学领域,领域自适应是提升模型性能的关键路径。它量化了SFT和RAG等技术对模型能力的提升效果,为如何构建专业的医疗LLM提供了经验证据。

4.3. 实践启示 (Practical Implications)

  • 指导未来模型开发:DentalBench 可以作为开发和迭代牙科领域AI应用的“试金石”,帮助研究人员和开发者识别模型弱点并进行针对性优化

  • 推动专科AI的可及性:研究表明,通过领域自适应,一个较小的开源模型(3B)也能在专业任务上取得显著进步。这意味着不一定需要依赖最大、最昂贵的闭源模型,通过精心构建的领域数据,可以开发出更具成本效益的专科AI解决方案。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性

    1. 数据不对称:中英文数据集在来源多样性和覆盖深度上不完全对齐,这可能导致了跨语言的性能差异

    2. 任务覆盖不均:多项选择题(MAQ)格式目前仅在中文数据集中提供,限制了对模型在英文环境下多答案推理能力的全面评估

  • 未来研究:未来的工作旨在构建更均衡的双语资源,并扩展跨语言的任务覆盖范围


5. 结论 (Conclusion)

  • 本文引入了 DentalBench,一个专为评估和增强 LLM 在牙科领域能力的综合性双语基准。它包括一个高质量的双语问答数据集 DentalQA 和一个大规模的领域专用语料库 DentalCorpus 。通过对14个 LLM 的广泛评估,研究揭示了现有模型在任务类型、语言和模型类别上的显著性能差距 。此外,实验证明使用 DentalCorpus 进行领域自适应能显著提升模型性能 。总的来说,DentalBench 为牙科领域知识驱动的语言模型评估提供了宝贵的资源,有助于推动口腔健康领域的语言理解研究

6. 核心参考文献 (Core References)

  1. Jin, D., et al. (2020). What disease does this patient have? a large-scale open domain question answering dataset from medical exams. arXiv preprint.

    • MedQA 是一个重要的通用医疗问答基准,也是本研究构建 DentalQA 英文数据部分的数据来源之一

  2. Hendrycks, D., et al. (2021). Measuring massive multitask language understanding. arXiv preprint.

    • MMLU 是另一个大型多任务理解基准,其医学部分同样是 DentalQA 的数据来源

  3. Qwen,, et al. (2025). Qwen2.5 technical report. arXiv preprint.

    • Qwen 系列模型是本研究评估的重点之一,并且 Qwen-2.5-3B 被选为进行领域自适应实验的基础模型

  4. U.S. National Library of Medicine. (2025b). Unified medical language system (umls).

    • UMLS 是一个权威的医学术语系统,本研究用它来构建 DentalQA 中的英文术语定义(DEF)问题

  5. Zhao, Z., et al. (2020). Orthodontics. People's Medical Publishing House, Beijing. In Chinese.

    • 这本权威的中文牙科教科书被用作 DentalQA 子领域划分的依据,体现了该基准在专业性上的严谨性


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: