论文信息
标题 (Title):DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding
作者 (Authors):Hengchuan Zhu, Yihuan Xu, Yichen Li, Zijie Meng, Zuozhu Liu
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2508.20416
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):尽管通用大型语言模型(LLM)和医疗大语言模型(Med-LLM)在通用医学基准上表现出色,但它们在需要更深领域知识的专科领域(如牙科)的能力,因缺乏针对性的评估资源而未被充分探索
。本研究旨在通过引入首个全面的双语牙科基准 DentalBench,来评估和推动 LLM 在该领域的发展 。 方法 (Methods):研究构建了 DentalBench,它包含两个核心部分:(1) DentalQA,一个包含36,597个问题的英汉双语问答基准,覆盖4种任务类型和16个牙科子领域
;(2)DentalCorpus,一个包含3.37亿词元的大规模、高质量双语语料库,专为牙科领域的监督微调(SFT)和检索增强生成(RAG)而设计 。 结果 (Results):研究对14个LLM(包括闭源、开源和医疗专用模型)的评估揭示了它们在不同任务类型和语言上的显著性能差距
。在Qwen-2.5-3B模型上的进一步实验表明,使用DentalCorpus进行领域自适应能大幅提升模型性能,尤其是在知识密集型和术语密集型任务上 。 结论 (Conclusion):DentalBench 为评估牙科领域的知识驱动型语言模型提供了一个宝贵的资源
。研究证明,领域自适应对于开发面向特定医疗应用的、值得信赖且有效的 LLM 至关重要 。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:大型语言模型(LLM)在医学领域已展现出专家级的性能
。然而,对于像牙科这样高度专业化的医学分支,LLM 的性能评估仍然有限 。牙科涉及多个子领域和复杂的操作,对人工智能的集成有巨大需求 。 核心研究问题:当前 LLM 在牙科领域面临的核心问题是缺乏针对性的评估资源
。通用医学语料库或基准中牙科专业知识的匮乏,不仅阻碍了对现有 LLM 局限性的理解,也限制了为临床应用开发稳健系统的进程 。 是否是新问题:这个问题并非全新,但本文的创新之处在于,它首次为牙科这一专科领域创建了一个全面的、双语的基准和配套语料库,以系统性地解决上述问题
。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:已有研究表明 LLM 在通用医学基准上表现优异
,并且一些深度学习技术已被探索用于牙科领域 。 研究缺口:本文明确指出的研究缺口是牙科领域评估资源的缺失。现有的通用医疗基准无法细粒度地评估 LLM 在牙科等专科领域的性能,这导致对模型能力的理解不足,并阻碍了其在口腔健康领域的应用开发
。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:
引入DentalQA,首个用于牙科语言理解的双语基准,包含36,597个问题,覆盖4种任务类型和16个子领域
。 创建DentalCorpus,一个包含3.37亿词元的大规模、高质量语料库,用于牙科领域的模型自适应
。 系统性地评估14个主流 LLM 在 DentalQA 上的表现,揭示其性能差距
。 通过实验证明,使用 DentalCorpus 进行领域自适应能显著提升通用 LLM 在牙科领域的性能
。
核心假设/命题:核心假设是,当前主流 LLM 在专业的牙科任务上存在显著的知识和能力短板,而通过领域自适应(即利用专门的牙科语料库进行微调或检索增强)可以有效弥补这一差距,从而大幅提升模型性能
。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究采用定量 (Quantitative) 的基准测试范式。
方法论:
DentalQA 基准构建:构建了一个包含36,597个英汉双语问题的高质量基准
。数据源包括公开的医疗问答数据集、中国国家牙科执业医师资格考试题、牙科教科书以及真实的医患互动记录 。数据集覆盖4种任务格式:单项选择题 (MCQ)、多项选择题 (MAQ)、开放式问题 (OEQ) 和术语定义题 (DEF) 。 DentalCorpus 语料库构建:构建了一个双语语料库以支持领域自适应
。数据源包括40本中文牙科教科书、从PubMed检索的54,651篇英文全文文章,以及从其他大型医疗数据集中筛选的内容 。 领域自适应实验:选择 Qwen-2.5-3B-Instruct 模型,采用三种策略进行领域自适应:(a) 监督微调 (SFT);(b) 检索增强生成 (RAG);(c) SFT与RAG结合
。
解决方案之关键:关键在于创建了一个双管齐下的解决方案:一个用于“评估”的基准(DentalQA)和一个用于“提升”的语料库(DentalCorpus)。这种设计不仅能量化现有模型的短板,还提供了一条清晰的技术路径来解决这些短板。
与之前方法的特点和优势:与依赖通用医学基准的评估不同,DentalBench 提供了专为牙科领域设计的、细粒度的、多任务、双语的评估框架。其配套的 DentalCorpus 也是一个大规模、经过专业筛选的高质量资源,使得领域自适应研究得以系统性地进行。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:
DentalQA:英文部分来自 MMLU、MedQA 等7个公开医疗问答数据集,并从 UMLS 检索术语定义
。中文部分来自中国国家牙科执业医师资格考试(1999-2021)、34本牙科教科书及辅导材料,以及181个真实的牙齿矫正医患互动问答 。 DentalCorpus:来源包括40本中文牙科教科书、通过28个MeSH词条从PubMed检索的5万余篇英文文章,以及经过关键词过滤的MMedC和MedRAG数据集
。
样本特征:DentalQA 共包含 36,597 个问题,其中中文22,297个,英文14,300个,覆盖16个牙科子领域
。DentalCorpus 最终包含3.37亿词元,其中英文部分有106万个文本块(3.19亿词元),中文部分有6.63万个文本块(1827万词元) 。
2.3. 操作化与测量 (Operationalization & Measurement)
关键变量测量:
MCQ:使用准确率(Accuracy)进行评估
。 MAQ:使用准确率、精确率(Precision)、召回率(Recall)和 F1 分数进行评估
。 OEQ 和 DEF:使用 BERTScore F1 分数进行评估,该指标衡量生成文本与参考答案的语义相似度
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
性能因语言和任务而异:在中文基准上,DeepSeek-R1 在选择题(MCQ和MAQ)上表现最佳;而在英文基准上,GPT-4o 领先
。然而,所有模型在开放式任务(OEQ和DEF)上的表现均远逊于选择题,这突显了它们在领域特定的生成式推理和术语理解方面的挑战 。 通用模型优于医疗模型:出乎意料的是,通用LLM(如Llama-3.1-8B)在多项选择题任务上持续优于其医疗领域的对应版本,这表明通用的医疗微调可能未充分覆盖牙科领域的专业知识
。 模型规模的影响:在Qwen-2.5系列中,扩大模型规模对 factual recall 类任务(MCQ, MAQ)有显著提升,但对生成式推理任务(OEQ, DEF)的增益有限
。 领域自适应效果显著:无论是SFT还是RAG,都能提升模型在选择题上的表现。RAG对开放式任务的提升更大。将两者结合(SFT+RAG)在选择题上产生了叠加增益
。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图 1: DentalBench 概览
内容解读:该图全面展示了 DentalBench 的构成。左侧是数据来源和构建流程,中间是四种任务类型的双语示例,右侧是36,597个问题在16个牙科子领域的分布情况
。 揭示的关系:该图清晰地展示了 DentalBench 的广度和深度,从数据来源的权威性(考试、教科书)到任务的多样性,再到子领域的全面覆盖,证明了其作为一个综合性基准的价值。
表 1: DentalQA 上的总体性能
内容解读:该表是核心的定量结果,展示了14个LLM在DentalQA-ZH(中文)和DentalQA-EN(英文)各项任务上的得分,并特别列出了对Qwen-2.5-3B进行领域自适应后的性能变化。
关键数据:
基线性能:在中文MCQ任务上,DeepSeek-R1 取得了最高的 76.06% 准确率。在英文MCQ上,GPT-4o 以 73.98% 领先
。 领域自适应效果:以中文MCQ为例,基准 Qwen2.5-3B 的准确率为 48.63%。经过 SFT 后提升至 54.58%,使用 RAG 提升至 54.45%,而 SFT+RAG 结合则达到了 60.06%,相比基线提升了超过11个百分点
。这有力地证明了领域自适应的有效性。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
实验结果清晰地揭示了即使是顶尖的通用 LLM 在面对高度专业化的牙科知识时也存在明显的短板。它们在需要精确事实回忆的多项选择题上表现尚可,但在需要深度理解和生成专业内容的开放式问题上则普遍表现不佳。这表明,模型的通用能力无法直接迁移到专科领域。此外,通用医疗模型的表现不及通用模型,可能意味着当前的医疗微调数据集中,牙科内容的覆盖率和权重不足。
4.2. 理论贡献 (Theoretical Contributions)
创建首个牙科领域综合基准:本文最核心的贡献是创建并发布了 DentalBench,这是首个为牙科领域设计的、全面的、双语的评估基准和配套语料库
。它填补了专科医学领域评估资源的空白,为后续研究提供了标准化的测试平台。 验证领域自适应的必要性:研究通过详实的实验,有力地证明了在专科医学领域,领域自适应是提升模型性能的关键路径。它量化了SFT和RAG等技术对模型能力的提升效果,为如何构建专业的医疗LLM提供了经验证据。
4.3. 实践启示 (Practical Implications)
指导未来模型开发:DentalBench 可以作为开发和迭代牙科领域AI应用的“试金石”,帮助研究人员和开发者识别模型弱点并进行针对性优化
。 推动专科AI的可及性:研究表明,通过领域自适应,一个较小的开源模型(3B)也能在专业任务上取得显著进步。这意味着不一定需要依赖最大、最昂贵的闭源模型,通过精心构建的领域数据,可以开发出更具成本效益的专科AI解决方案。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
数据不对称:中英文数据集在来源多样性和覆盖深度上不完全对齐,这可能导致了跨语言的性能差异
。 任务覆盖不均:多项选择题(MAQ)格式目前仅在中文数据集中提供,限制了对模型在英文环境下多答案推理能力的全面评估
。
未来研究:未来的工作旨在构建更均衡的双语资源,并扩展跨语言的任务覆盖范围
。
5. 结论 (Conclusion)
本文引入了 DentalBench,一个专为评估和增强 LLM 在牙科领域能力的综合性双语基准。它包括一个高质量的双语问答数据集 DentalQA 和一个大规模的领域专用语料库 DentalCorpus
。通过对14个 LLM 的广泛评估,研究揭示了现有模型在任务类型、语言和模型类别上的显著性能差距 。此外,实验证明使用 DentalCorpus 进行领域自适应能显著提升模型性能 。总的来说,DentalBench 为牙科领域知识驱动的语言模型评估提供了宝贵的资源,有助于推动口腔健康领域的语言理解研究 。
6. 核心参考文献 (Core References)
Jin, D., et al. (2020). What disease does this patient have? a large-scale open domain question answering dataset from medical exams. arXiv preprint.
MedQA 是一个重要的通用医疗问答基准,也是本研究构建 DentalQA 英文数据部分的数据来源之一
。
Hendrycks, D., et al. (2021). Measuring massive multitask language understanding. arXiv preprint.
MMLU 是另一个大型多任务理解基准,其医学部分同样是 DentalQA 的数据来源
。
Qwen,, et al. (2025). Qwen2.5 technical report. arXiv preprint.
Qwen 系列模型是本研究评估的重点之一,并且 Qwen-2.5-3B 被选为进行领域自适应实验的基础模型
。
U.S. National Library of Medicine. (2025b). Unified medical language system (umls).
UMLS 是一个权威的医学术语系统,本研究用它来构建 DentalQA 中的英文术语定义(DEF)问题
。
Zhao, Z., et al. (2020). Orthodontics. People's Medical Publishing House, Beijing. In Chinese.
这本权威的中文牙科教科书被用作 DentalQA 子领域划分的依据,体现了该基准在专业性上的严谨性
。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment