大型语言模型临床诊断敏感性评估框架

大型语言模型(LLMs)在各个领域展现出令人印象深刻的性能。然而,对于临床诊断而言,对LLM的可靠性和敏感性有着更高的要求:需要像医生一样思考,并对影响诊断推理的关键医学信息保持敏感,因为细微的变化可能导致不同的诊断结果。然而,现有工作主要关注研究LLM对不相关上下文的敏感性,而忽略了关键信息的重要性。
本文中,我们通过引入不同的扰动策略,研究了LLMs(即GPT-3.5、GPT-4、Gemini、Claude3和LLaMA2-7b)对关键医学信息的敏感性。评估结果突显了当前LLMs在保持对用于诊断决策的关键医学信息敏感方面的局限性。LLMs的发展必须专注于提高其可靠性,增强其对关键信息保持敏感的能力,并有效利用这些信息。这些改进将增强人类对LLMs的信任,并促进它们在实际场景中的应用。
我们的代码和数据集可在 https://github.com/chenwei23333/DiagnosisQA 获取。

1. 论文的研究目标

1.1 研究目标与实际问题

这篇论文的核心研究目标是评估大型语言模型(LLMs)在临床诊断场景中对关键医疗信息的敏感性(Sensitivity),并提出一个系统性的评估框架(LLMSenEval)和相应的数据集(DiagnosisQA)。

论文旨在解决以下关键实际问题:

  1. LLM在临床诊断中的可靠性担忧: 尽管LLMs在许多任务上表现出色,甚至在医学知识测试中接近人类水平,但它们在真实临床场景中的应用仍然有限。一个主要原因是对其可靠性的担忧,特别是它们是否能像人类医生一样,对影响诊断决策的关键医疗信息(如症状、检查结果的细微变化)保持高度敏感。
  2. 现有敏感性研究的不足: 已有的LLM敏感性研究主要关注模型对非关键信息(如多选题选项顺序、无关上下文)变化的反应,而忽略了在临床实践中至关重要的、对关键诊断线索的敏感性。
  3. 缺乏系统性评估方法: 目前缺乏一个从临床视角出发,系统性地评估LLM对关键医疗信息敏感性的框架和标准数据集。

"However, for clinical diagnosis, higher expectations are required for LLM’s reliability and sensitivity: thinking like physicians and remaining sensitive to key medical information that affects diagnostic reasoning, as subtle variations can lead to different diagnosis results." "Yet, existing works focus mainly on investigating the sensitivity of LLMs to irrelevant context and overlook the importance of key information."

1.2 新问题与科学假设

评估LLM对临床诊断中关键医疗信息的敏感性,并为此设计系统性的扰动策略和评估框架,这是一个相对新颖的研究问题。之前的研究要么评估LLM的医学知识准确性,要么评估其对非关键信息变化的敏感性。

论文的核心科学假设是:当前最先进的LLMs(包括GPT-4等)在对影响临床诊断的关键医疗信息的敏感性方面存在显著局限性,未能达到临床应用所需的高可靠性水平。这种局限性可以通过对其在包含系统性信息扰动的诊断问答任务上的表现进行评估来量化。

"The evaluation results highlight the limitations of current LLMs in remaining sensitive to key medical information for diagnostic decision-making."

1.3 相关研究与归类

论文中提到的相关研究主要包括:

  1. 医学领域LLM评估: 评估LLM的医学知识理解(如MedLAMA)、在医学考试中的表现(如USMLE, CMExam, MedBench)、以及在事实性、理解力、推理能力等方面的综合评估(Singhal et al., Zhou et al.)。
  2. LLM敏感性评估: 研究LLM对提示(Prompt)、指令、输入上下文中的微小变化(如选项顺序、无关信息干扰、情感刺激、奖惩语句)的敏感性(Pezeshkpour and Hruschka, Zheng et al., Shi et al., Bsharat et al., Xu et al., Li et al.)。

这些研究属于人工智能(AI)自然语言处理(NLP)医疗信息学(Medical Informatics)模型评估(Model Evaluation) 的交叉领域。具体可归类于LLM可靠性与鲁棒性评估医疗AI计算语言学的研究范畴。

1.4 领域内值得关注的研究员

论文作者团队(Chenwei Yan, Xiangling Fu, Yuxuan Xiong, Tianyi Wang, Siu Cheung Hui, Ji Wu, Xien Liu)是该领域值得关注的研究者。此外,他们引用的相关工作作者也值得关注:

  • Karan Singhal 等 (Google): 在医学LLM评估方面(如Med-PaLM)有重要工作。
  • Valentin Liévin 等: 较早评估了GPT-3.5在USMLE上的表现。
  • Pouya Pezeshkpour, Estevam Hruschka, Chujie Zheng 等: 研究了LLM对选项顺序等输入的敏感性。
  • Freda Shi 等: 研究了LLM对无关上下文的敏感性。

2. 论文提出的新思路、方法和模型

2.1 新思路与关键

论文提出的核心新思路是从临床实践需求出发,建立一个系统性评估LLM对关键医疗信息敏感性的框架(LLMSenEval)。其关键在于:

  1. 聚焦关键信息 (Key Information): 明确识别出临床诊断中至关重要的四类信息:年龄 (age)性别 (gender)临床症状 (clinical symptoms) 和检查结果 (checkup results)
  2. 设计扰动策略 (Perturbation Strategy): 针对每类关键信息,设计了两种明确的扰动方式:信息改变 (Change)(如改变数值、正负性、性别)和信息移除 (Removal)(删除该信息)。
  3. 构建专门数据集 (DiagnosisQA & Derived Sets): 基于公开的MedQA数据集,筛选出病例型问答题构建基础数据集DiagnosisQA,并应用扰动策略生成8个针对不同信息和扰动类型的衍生数据集。
  4. 区分评估场景: 在评估时,将被扰动的问题分为两类:答案不变子集 (Same Answer Subset, SAS),即扰动不应影响正确诊断;和答案改变子集 (Different Answer Subset, DAS),即扰动应导致诊断改变。这使得评估可以区分模型是“对无关变化过于敏感”还是“对关键变化不够敏感”。

"We propose a LLM sensitivity evaluation framework, named LLMSenEval, which provides a systematic approach for assessing the sensitivity of LLMs to key medical information in clinical diagnosis." "We propose a design schema for sensitivity evaluation, consisting of key information and perturbation strategy."

2.2 LLMSenEval 框架

该框架包含四个步骤(见图2):

  1. 设计 (Design): 定义关键信息类型K ({kgender, kage, ksymptom, kcheck}) 和扰动策略P ({change, removal})。
  2. 生成 (Generate): 从原始诊断问答数据集D (DiagnosisQA) 中提取关键信息的值,应用扰动策略P生成8个衍生数据集D' ({DGC, DGR, DAC, DAR, DSC, DSR, DCC, DCR})。
  3. 测试 (Test): 使用统一的输入结构(包含角色、任务、格式指令的Prompt + Question + Options)在原始数据集D和衍生数据集D'上测试目标LLMs。
  4. 评估 (Evaluate): 使用标准指标(Accuracy, Precision, Recall, F1)和定制指标(Response Rate - RR, Followed-Instruction Rate - FIR)评估LLM的性能和指令遵循能力。通过比较模型在D和D'上的表现来评估其敏感性:
    • 在SAS上,理想情况下准确率变化(Δ accuracy)应接近0(低敏感性)。
    • 在DAS上,理想情况下准确率应尽可能高(高敏感性)。

Figure 2: The proposed framework LLMSenEval for LLM sensitivity evaluation. Table 1: Perturbation strategies on key medical information in the experiments.

2.3 与之前方法的比较

  • 敏感性焦点不同: LLMSenEval关注临床关键信息,而非选项顺序、无关上下文等。
  • 系统性: LLMSenEval提供了系统化的扰动生成和评估流程,而非零散的观察。
  • 评估维度更丰富: 区分了SAS和DAS,能更细致地分析敏感性的类型(是过度敏感还是不够敏感)。
  • 临床视角: 评估框架的设计思路更贴近临床实际需求。

3. 论文的实验验证

3.1 实验设计

  • 任务: 临床诊断多选题问答。
  • 数据集:
    • 基础数据集:DiagnosisQA (从MedQA筛选并标注,4603个问题)。
    • 衍生数据集:8个基于DiagnosisQA生成的扰动数据集 (样本量见Table 2)。
    • 数据集标注:衍生数据集的正确答案由4位专业医生和专家审核校对。
  • 模型: GPT-3.5-Turbo-0613, GPT-4-Turbo-2024-04-09, Google Gemini-Pro, Anthropic Claude-3-haiku-20240307, LLaMA2-7b-chat (本地部署)。
  • 测试设置: 温度0,Token限制1024。输入包含标准化Prompt和Instruction。
  • 评估指标:
    • 标准指标: Accuracy, Macro Precision, Macro Recall, Macro F1-score。Accuracy是敏感性分析的主要指标。
    • 定制指标: Response Rate (RR), Followed-Instruction Rate (FIR)。
  • 评估方法:
    • 基线性能:在DiagnosisQA上评估各模型。
    • 敏感性分析:分别在8个衍生数据集上评估各模型,并重点分析:
      • 在SAS上的准确率变化(Δ accuracy)。
      • 在DAS上的准确率。

3.2 实验数据与结果

  • 基线性能 (Table 3):
    • 准确率: GPT-4 (78.95%) >> Claude3 (65.37%) > Gemini (64.39%) > GPT-3.5 (61.38%) >> LLaMA2-7b (24.74%)。
    • 指令遵循率 (FIR): GPT-4 (99.98%) > Claude3 (94.03%) > GPT-3.5 (98.92%) > Gemini (68.43%) >> LLaMA2-7b (0%)。LLaMA2和Gemini的输出需要较多后处理。
  • 性别敏感性 (Table 4):
    • SAS: GPT-3.5最稳定 (ΔAcc < 0.49%)。GPT-4变化最大 (+1.45%, +1.98%)。
    • DAS: GPT-4最敏感 (准确率32.01%),远超其他模型。
  • 年龄敏感性 (Table 5):
    • SAS: 所有模型都相对稳定 (ΔAcc < 1.2%)。GPT-3.5和Gemini变化在误差范围内。
    • DAS: 样本量极小 (Change: 4个, Removal: 22个)。GPT-4在Change上最敏感 (50% Acc)。Claude3在Removal上是唯一能答对的 (4.55% Acc)。
  • 症状敏感性 (Table 6):
    • SAS: GPT-3.5最稳定 (ΔAcc < 0.49%)。Gemini表现出显著的不良敏感性 (ΔAcc -4.69%, -2.34%)。
    • DAS: GPT-4在Change上最敏感 (3.08% Acc)。Gemini在Removal上最敏感 (3.75% Acc)。
  • 检查结果敏感性 (Table 7):
    • SAS: GPT-4最稳定 (ΔAcc < 0.37%)。GPT-3.5表现出显著的不良敏感性 (ΔAcc -4.26%, -5.90%)。
    • DAS: GPT-4最敏感 (Change: 4.13% Acc, Removal: 5.25% Acc)。
  • 总体敏感性 (Figure 4 & Discussion):
    • 对无关变化(SAS)的稳定性: GPT-3.5在性别、年龄、症状上表现较好;GPT-4在检查结果上表现较好。Gemini和GPT-3.5在某些情况下对本不应影响结果的变化反应过大。
    • 对关键变化(DAS)的敏感性: GPT-4在所有类别上都展现出最高的敏感性(正确回答总数345个),远超第二名Gemini(122个)。然而,即使是GPT-4,在DAS上的绝对准确率仍然很低 (约5.28%),表明其捕捉关键信息变化并做出正确诊断调整的能力有限。Claude3对关键变化和非关键变化都表现出较低的敏感性。

3.3 实验结果分析

实验结果清晰地表明:

  1. LLMs对关键医疗信息的敏感性普遍不足: 即使是表现最好的GPT-4,在需要根据关键信息变化调整诊断(DAS)的任务上,准确率也只有约5.28%。
  2. 不同模型表现差异大: GPT-4在捕捉关键变化方面表现最好,但有时对无关变化也略有波动。GPT-3.5对无关变化相对稳定,但对关键变化敏感度低。Gemini有时对无关变化过度敏感。Claude3整体敏感性偏低。LLaMA2-7b受限于模型规模,表现不佳。
  3. 存在不良敏感性: 部分模型(如Gemini对症状,GPT-3.5对检查结果)在SAS(答案本应不变)上出现显著的准确率下降,表明它们会被不应影响诊断的信息扰动。

3.4 假设支持

实验结果有力地支持了论文的核心假设:当前的LLMs,包括最先进的GPT-4,在对临床诊断中的关键医疗信息的敏感性方面存在显著局限性,远未达到临床应用所需的高可靠性水平。

4. 论文的贡献、影响和应用

4.1 论文贡献

  1. 提出LLMSenEval框架: 第一个针对临床诊断场景下LLM对关键医疗信息敏感性的系统性评估框架。
  2. 提出设计模式: 定义了关键信息类型(年龄、性别、症状、检查结果)和扰动策略(改变、移除)。
  3. 构建DiagnosisQA及衍生数据集: 提供了一套用于评估LLM临床诊断敏感性的公开基准数据集。
  4. 首次系统性评估: 对五种主流LLM进行了敏感性评估,量化了它们在此方面的局限性。
  5. 强调临床视角: 将LLM评估的重点从通用指标或非关键信息敏感性转移到更具临床意义的关键信息敏感性上。

"To the best of our knowledge, this is the first work on proposing an evaluation framework to study the sensitivity of LLMs for clinical diagnosis."

4.2 业界影响

  • 揭示LLM临床应用的关键短板: 明确指出了当前LLM在敏感性方面的不足,为业界设定了更高的可靠性标准。
  • 引导未来研究方向: 促使研究者关注如何提升LLM对关键信息的敏感度,而非仅仅追求知识问答的准确率。
  • 提供评估工具: LLMSenEval框架和DiagnosisQA数据集可被用作评估和比较未来医疗LLM敏感性的基准。
  • 增强对LLM局限性的认识: 帮助业界(包括开发者、使用者、监管者)更清醒地认识到LLM在直接应用于高风险临床决策前的局限性。

4.3 潜在应用场景和商业机会

虽然论文揭示了局限性,但也指明了方向:

  • 应用场景:
    • 利用LLMSenEval框架对新的或微调后的医疗LLM进行可靠性测试和验证。
    • 开发专门优化过敏感性的、更可靠的医疗LLM助手(用于辅助诊断、病例回顾等)。
  • 商业机会:
    • 提供医疗LLM敏感性/可靠性评估服务。
    • 研发和销售具有更高临床信息敏感度的医疗专用LLM。
    • 开发用于生成敏感性测试数据的工具。

4.4 工程师关注点

  • 数据扰动技术: 如何根据临床逻辑,自动且准确地对医疗文本中的关键信息进行修改或删除。
  • 评估框架实现: 如何构建自动化的测试和评估流程,处理LLM的API调用、响应解析(特别是JSON格式处理和异常处理,如图3所示)。
  • 模型鲁棒性: 如何设计模型或训练策略,使其对无关信息变化(SAS场景)更鲁棒,同时对关键信息变化(DAS场景)更敏感。
  • 指令遵循能力: 如何通过Prompt Engineering或模型微调提高LLM遵循复杂指令(如特定输出格式)的能力。
  • 细粒度评估指标: 除了准确率,是否可以设计更细粒度的指标来衡量敏感性的程度?

5. 未来在该研究方向上还有哪些值得进一步探索的问题和挑战?

5.1 值得探索的问题和挑战 (部分在Limitation中提及)

  1. 扩展关键信息类型: 评估对其他关键信息(如家族病史、用药史、过敏史、社会心理因素等)的敏感性。
  2. 更真实的临床数据: 使用真实的、更长、更复杂的电子病历(EMR)数据进行评估,而非结构化的MedQA问答题。
  3. 更多样的诊断任务: 评估LLM在不同类型诊断任务(如鉴别诊断、罕见病诊断、自由文本诊断报告生成)中的敏感性。
  4. 更细致的扰动策略: 设计更符合临床实际的、更细微的信息扰动方式。
  5. 提高LLM的敏感性: 研究如何通过模型架构设计、预训练策略、微调方法(如引入对比学习、因果推理)来提升LLM对关键信息的敏感度,同时降低对无关信息的敏感度。
  6. 可解释性: 为什么LLM对某些信息敏感而对另一些不敏感?其内部的“注意”机制是怎样的?
  7. 评估方法的鲁棒性: 如何确保评估结果不依赖于特定的Prompt或数据集构建方式?

5.2 新技术和投资机会

  • 高可靠性医疗LLM: 投资于研发专门为临床应用设计、具有高信息敏感度和鲁棒性的LLM。
  • 临床AI验证平台: 提供包含敏感性、鲁棒性、公平性等在内的全面AI验证服务的平台。
  • 合成医疗数据生成: 利用AI生成用于测试AI敏感性的、包含各种信息扰动的合成数据集。
  • 可解释AI技术: 投资于能解释LLM决策过程,特别是其如何利用关键信息的技术。
  • 结合因果推理的LLM: 开发能更好理解信息间因果关系,从而更准确判断信息重要性的LLM。

6. 从 critical thinking 的视角看,这篇论文还存在哪些不足及缺失?

6.1 不足之处

  1. 数据集来源单一且结构化: 基础数据源于MedQA(多选题),虽然是病例题,但相比真实EMR,信息更精炼、干扰更少、结构更规整。这可能导致评估结果无法完全反映真实世界的复杂性。
  2. 扰动策略的简化: “改变”和“移除”是相对基础的扰动。临床信息的变异可能更复杂,如信息模糊、矛盾、时间序列变化等,这些未被覆盖。
  3. DAS样本量问题: 部分DAS子集的样本量非常小(如年龄相关的DAS只有个位数或几十个问题),基于此计算出的准确率可能不稳定或代表性不足。
  4. 评估指标的局限: 主要依赖准确率来衡量敏感性。对于诊断任务,错误类型(假阴性 vs 假阳性)的代价可能不同,单一准确率无法完全体现临床风险。
  5. LLM版本和API依赖: 对GPT、Gemini、Claude的评估依赖于API,模型可能在后台更新,影响结果的可复现性。

6.2 需要进一步验证和存疑之处

  1. 敏感性与模型规模的关系: LLaMA2-7b表现差,但GPT-4(参数量远大于7B)表现最好。敏感性是否与模型规模/能力强相关?需要更多不同规模模型的验证。
  2. 指令遵循能力与敏感性的关系: FIR低的模型(如LLaMA2, Gemini)是否其低敏感性也部分源于未能完全理解任务或提取关键信息?
  3. Prompt的影响: 论文使用了统一的Prompt,但不同的Prompt设计是否会显著影响评估出的敏感性结果?
  4. “不敏感” vs “无法推理”: 对于LLaMA2-7b这类在基线上表现就很差的模型,其在DAS上的低准确率是源于“对变化不敏感”,还是根本“缺乏足够的推理能力”?评估框架可能难以完全区分这两者。
  5. Case Study的普遍性: Table 8的案例分析很有启发性,但单个案例是否能代表模型在处理逻辑不一致性方面的普遍行为?

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: