评估旨在提升医疗大型语言模型准确性与置信度引出的提示工程技术

本文旨在探究提示工程技术在提升大型语言模型(LLM)应用于高风险医疗场景时的准确性以及其表达置信度的可靠性方面的效用。研究采用了一个涵盖多个专业的波斯语执业医师资格认证考试的分层抽样试题数据集,对五个大型语言模型——GPT-4o、o3-mini、Llama-3.3-70b、Llama-3.1-8b 和 DeepSeek-v3——进行了系统评估。每个模型均在156种独特配置下进行了测试,这些配置反映了不同的温度设置(0.3、0.7、1.0)、提示设计(如思维链、少样本、情感化、专家模仿)以及置信度输出范围(1–10、1–100)。研究采用了AUCROC、布里尔分数(Brier Score)和预期校准误差(Expected Calibration Error, ECE)等指标,以评估模型表达的置信度与其实际表现的吻合程度。

结果显示,尽管先进的提示策略——尤其是思维链(Chain-of-Thought)——能够持续提高准确率,但同时也加剧了模型的过度自信现象,表明需要进行事后校准。情感化提示会进一步放大这种过度自信,可能对临床决策造成不利影响。诸如Llama3.1-8b之类的小型模型在各项评估指标上均表现不佳,这凸显了稳健模型架构在复杂临床场景中的重要性。相比之下,专有模型(如基于GPT的系统)虽然准确率更高,但在置信度校准的可靠性方面仍有欠缺。

这些发现强调,提示设计的关键不仅在于提升准确率,更在于有效管理认知不确定性(epistemic uncertainty)与偶然不确定性(aleatoric uncertainty)。总而言之,提示工程技术展现出其双面性:它既可以显著提升模型的回答正确率,也可能无意中放大模型对错误答案的置信度。要解决这一矛盾,必须将精心设计的提示与严格的校准方案相结合,尤其是在错误建议可能导致危及生命之后果的医疗场景中。


一、论文的研究目标、实际问题、科学假设及相关研究

  1. 研究目标与实际问题: 该论文的核心研究目标是评估不同的提示工程(Prompt Engineering)技术在提升医学大语言模型(LLMs)答案准确性以及其表达置信度校准方面的效果 在医疗这种高风险领域,一个错误的建议可能导致严重后果。因此,仅仅追求模型回答的准确性是不够的,模型还需要能够准确地评估并传达它对自己答案的信心程度(即所谓的“置信度校准”)。如果模型对其错误的答案表现出过度自信,或者对其正确的答案缺乏信心,都可能误导临床决策。

    实际问题可以概括为:

    • 如何让LLMs在回答复杂的医学问题时更准确?
    • 如何让LLMs表达的置信度真正反映其答案的可靠性,避免过度自信或信心不足?
    • 在数据隐私至关重要的医疗领域,开源模型能否替代专有模型,它们的表现如何?
  2. 是否是新问题: 利用LLMs进行医学问答、提高其准确性和校准其置信度并不是一个全新的问题。学术界已经有不少研究关注LLMs在医学领域的应用、幻觉(hallucinations)的减少、以及不确定性量化。 然而,这篇论文的新颖之处在于其系统性地、大规模地比较了多种提示工程技术、不同参数设置(如温度)、不同置信度输出格式,以及多款主流LLMs(包括开源和专有模型)在特定医学数据集(波斯语医学委员会认证考试题)上的表现 特别是对不同提示策略如何同时影响准确性和置信度校准,并导致两者之间可能存在的冲突(例如,某些提示提高了准确性却加剧了过度自信)进行了深入分析。

  3. 科学假设: 论文的科学假设可以理解为:

    • 不同的提示工程技术会对LLMs在医学问答任务中的准确性和置信度校准产生不同程度的影响。
    • 更高级的提示技术(如思维链CoT)能够提升模型的准确性,但也可能导致模型对其答案更加过度自信。
    • 情感类提示可能会不成比例地夸大模型的置信度,而对准确性的提升有限。
    • 模型架构和规模会显著影响其在复杂医学场景中的表现和置信度校准能力。
  4. 相关研究与归类: 论文在“Related Work”部分(第3-4页)引用了大量相关研究,大致可以归为以下几类:

    • 提示工程与LLM性能:研究如何通过设计提示词来提升LLM的上下文理解、事实准确性和减少幻觉。例如,Liu等人 的研究表明精心设计的提示可以减少幻觉和事实错误。
    • 不确定性量化 (Uncertainty Quantification, UQ):探索如何让LLM更好地理解和表达其预测的不确定性,区分认知不确定性 (Epistemic Uncertainty)(模型知识的缺乏,可通过更多数据或更好模型改善)和偶然不确定性 (Aleatoric Uncertainty)(数据本身固有的随机性或噪声)。 例如,Ling等人 使用贝叶斯推断技术来捕捉这两种不确定性。
    • 特定提示技术研究:如思维链 (Chain-of-Thought, CoT), 贝叶斯提示集成 (Bayesian Prompt Ensembles), 自检 (Self-Checking), 检索增强提示 (Retrieval-Augmented Prompting, RAP) 等。
    • 置信度校准 (Confidence Calibration):研究如何使模型报告的置信度与其实际表现相匹配,缓解过度自信问题。
    • 医学LLM应用与评估:针对医学诊断、问答等具体场景评估LLM的性能和可靠性。
  5. 值得关注的研究员: 除了本论文的作者(如Nariman Naderi, Ali Soroush等),在相关研究中被引用的学者也值得关注,例如:

    • 研究提示工程与可靠性的 L. Wang et al.
    • 研究LLM不确定性表达的 M. Xiong et al.
    • 研究贝叶斯提示集成的 F. Tonolini et al.
    • 研究CoT等类人提示的 Xiong et al. (2023) (注意与上面M. Xiong et al. (2024) 的区分)
    • 在医学诊断中比较不确定性代理的 T. Savage et al.

二、论文提出的新思路、方法或模型

  1. 新的思路、方法或模型: 这篇论文的核心不在于提出一个全新的LLM架构或一种前所未有的提示“类别”,而在于其系统性的评估框架和对现有技术组合应用的深入洞察。论文的新颖性体现在:

    • 多维度系统评估:同时评估了5种LLMs (GPT-4o, o3-mini, Llama-3.3-70b, Llama-3.1-8b, DeepSeek-v3) ,在3种不同温度设置、6种不同提示设计和2种置信度输出量纲下,总共进行了156种独特的实验配置。 这种规模的系统性比较在医学LLM提示工程领域是相对较少的。
    • 特定数据集应用:使用了波斯语的医学委员会认证考试题,并提供了英文翻译,这为特定语言和文化背景下的医学LLM研究提供了数据参考。
    • 关注准确性与置信度的双重影响:论文强调,很多提高准确性的方法可能对置信度校准产生负面影响,这是一个关键的实践洞察。
    • 探索情感提示的效应:明确测试了“情感提示”(强调回答准确性对患者的真实影响)对模型性能和置信度的影响,并发现其会不成比例地夸大置信度。
  2. 解决方案的关键: 论文并未提供一个“一劳永逸”的解决方案,而是揭示了问题的复杂性。其强调的关键在于:

    • 权衡与校准:认识到提示工程对准确性和置信度是“双刃剑” ,需要在提升准确性的同时,关注并校准模型的置信度,特别强调了事后校准 (post-hoc calibration) 的必要性。
    • 情境化选择:没有一种提示策略在所有情况下都是最优的。需要根据具体应用场景、模型类型和期望的准确性-置信度平衡来选择和调整提示策略。
    • 对不确定性的管理:提示设计应致力于有效管理认知不确定性和偶然不确定性,而不仅仅是追求准确率的提升。
  3. 与之前方法的特点和优势

    • 系统性和广度:相比于许多只关注少数模型或单一提示技术的研究,该研究的实验设计更广泛,覆盖了多种模型、提示技术和参数组合。
    • 对负面协同效应的关注:明确指出了某些提升准确性的技术(如CoT)可能恶化置信度校准的现象 ,这是很多以往研究中可能被忽略的。
    • 对小型模型的评估:包含了对小型模型(如Llama-3.1-8b)的评估,并指出了它们在复杂临床场景中的不足 ,这对于边缘计算或资源受限环境下的应用具有参考价值。
    • 对情感因素的量化影响:量化了情感提示对置信度的影响,并警示了其在临床决策中可能带来的风险。

    例如,论文提到:

    "Results revealed that while advanced prompting strategies particularly Chain-of-Thought-consistently boosted accuracy, they also heightened overconfidence, indicating the need for post-hoc calibration." 这清晰地指出了CoT的优势(提升准确性)和潜在问题(加剧过度自信)。

    "Emotional prompting inflated confidence further, potentially undermining clinical decision-making." 这揭示了情感提示的独特影响。

三、实验验证、设计、数据与结果分析

  1. 实验设计: 实验流程如图1所示,主要包含以下步骤

    • 数据集构建 (Dataset Curation):从2022年和2023年的波斯语医学专业和专科住院医师资格认证考试中收集了约12000道选择题。 由于计算和经费限制,采用分层随机抽样选取了300道题目进行测试,确保覆盖多个医学专业。 每道题目都由医学博士验证了英文翻译。
    • LLM流水线 (LLM Pipeline)
      • 模型 (Models):选择了5个LLMs:Llama 3.3-70B, Llama 3.1-8B, DeepSeek-v3, GPT-4o, o3-mini。 这些模型来自不同公司,具有不同的参数规模和架构,有的为通用模型,有的为推理优化模型。
      • 温度设置 (Temperatures):测试了0.3, 0.7, 1.0三个水平(o3-mini仅支持1.0)。 温度用于控制模型输出的随机性/创造性。
      • 提示设计 (Prompt Designs):系统评估了6种提示技术
        1. 思维链提示 (CoT Prompting):引导LLM进行逐步推理。
        2. 少样本提示 (Few-Shot Prompting):提供示例问题和答案来塑造模型的预期输出。
        3. 混合CoT与少样本提示 (Hybrid CoT and Few-Shot Prompting):结合前两者。
        4. 零样本原始提示 (Zero-Shot Raw Prompting):仅给问题,要求输出答案和置信度。
        5. 专家模拟提示 (Expert Mimicry Prompting):指示LLM扮演领域专家的角色。
        6. 情感提示 (Emotional Prompting):强调回答的准确性及其置信度对患者可能产生的真实世界影响。
      • 置信度输出格式 (Confidence Output Scales):1-10 和 1-100两种量纲。
      • 输出结构:标准化输出,包含答案解释、答案选项(1-4)和置信度分数。
    • 分析 (Analysis)
      • 区分度 (Discrimination):使用AUC-ROC (Area under the Receiver Operating Characteristic Curve,受试者工作特性曲线下面积) 评估置信度分数区分正确和错误答案的能力。 AUC-ROC值越接近1,说明区分能力越好。
      • 校准度 (Calibration):使用布里尔分数 (Brier Score)(预测概率与实际结果之间均方误差) 期望校准误差 (Expected Calibration Error, ECE)(不同置信度区间内模型置信度与实际准确率的差异) 进行评估。Brier Score和ECE越低,说明校准度越好。
      • 探索性分析 (Exploratory Analysis):包括准确率、平均置信度和统计显著性检验。
  2. 实验数据和结果: 实验结果在论文的图2、图3以及第4节“Results”中有详细呈现。

    • 准确率 (Accuracy)
      • 表现最好的模型是 o3-mini,在情感提示、温度1.0、置信度1-100的配置下达到69.00%的准确率。 其平均准确率为
      • 表现最差的是 Llama 3.1 8b,在情感提示、温度0.3、置信度1-100的配置下准确率仅为18.00%。 其平均准确率为
      • 其他模型平均准确率:GPT-4o (), DeepSeek-v3 (), Llama 3.3 70b ()。
    • 区分度 (AUC-ROC)
      • GPT-4o 表现最好,平均AUC-ROC为 在CoT Few-shot、温度0.7、置信度1-100的配置下,AUC-ROC最高达到0.699。
      • Llama-v3p1-8b-instruct 表现最差,平均AUC-ROC为
      • 论文指出,没有模型的AUC-ROC分数超过0.7,这通常被认为是可接受区分能力的最低阈值。
    • 校准度 (Brier Score & ECE)
      • Brier ScoreGPT-4o 的平均Brier Score最低(最好),为 Llama 3.1 8b 最高(最差),为 论文同样提到,没有模型的Brier Score低于0.25(在四选一问题中约等于随机猜测的表现)。
      • ECE03-mini 在情感提示、温度1.0、置信度1-100的配置下ECE最高(最差),达到0.687。 Llama 3.1 8b 在CoT提示、温度1.0、置信度1-10的配置下ECE最低(最好),为0.142。 这是一个有趣的现象,准确率最低的模型反而可能在某些配置下ECE表现更好,这可能与其整体置信度较低有关。
  3. 实验及结果对科学假设的支持: 实验结果很好地支持了论文的科学假设

    • 不同提示技术影响不同:图2和图3清晰显示,对于同一个模型,采用不同提示策略(如图中x轴所示的cot, fewshot等),其准确率、AUC-ROC、Brier Score和ECE均有显著变化。
    • CoT提升准确性但加剧过度自信:论文讨论部分明确指出 "CoT universally improved accuracy, it simultaneously amplified confidence" ,并且 "where accuracy improvements are systematically accompanied by inflated confidence estimates." 这直接验证了假设。
    • 情感提示夸大置信度:实验结果显示情感提示 "consistently inflated confidence scores across architectures." 并且这种置信度的提升并未带来准确率的显著改善,反而可能损害校准度(Brier score和AUC-ROC指标恶化)。
    • 模型架构和规模的重要性:Llama 3.1-8b(小型模型)在所有指标上均表现不佳 ,而像03-mini和GPT-4o这样的专有或大型模型在准确性上表现更好 ,这支持了模型本身能力的重要性。

    一个关键的总结性发现是:

    "These findings underscore the significance of designing prompts that effectively manage epistemic and aleatoric uncertainties, rather than solely focusing on accuracy gains." "Ultimately, prompt engineering emerges as a dual-faceted approach one that can substantially elevate model correctness yet inadvertently inflate confidence in erroneous outputs."

四、论文的贡献、业界影响与潜在机会

  1. 论文贡献

    • 系统的实证分析:对多种LLMs在不同提示和配置下的医学问答准确性和置信度校准进行了迄今为止较为全面的系统性评估。
    • 揭示准确性-置信度困境:明确指出了在追求LLM更高准确性的同时,可能会牺牲置信度校准的风险,强调了两者需要协同优化。
    • 对特定提示策略的洞察:量化了如CoT、情感提示等对模型行为的具体影响,例如情感提示对置信度的不成比例放大效应。
    • 为实践者提供指导:为在医疗等高风险领域部署LLM的工程师和研究人员提供了关于如何选择和评估提示策略的实践性见解和警示。
    • 开源与专有模型的比较:提供了在特定任务上开源模型(如Llama系列,DeepSeek)与专有模型(如GPT系列)性能对比的参考。
  2. 业界影响

    • 提高对LLM可靠性评估的重视:推动业界不仅仅关注LLM的准确率,更加关注其输出的可靠性,特别是置信度校准和不确定性量化。
    • 促进更负责任的AI开发:提醒开发者在设计和部署面向高风险领域的LLM应用时,必须审慎考虑过度自信等问题,并采取必要措施(如事后校准)。
    • 推动提示工程的深化研究:鼓励研究更先进的提示技术,这些技术不仅能提高准确性,还能改善置信度校准。
    • 对模型选择和部署策略的影响:帮助企业根据其具体需求(如数据隐私、性能要求、成本等)在不同LLM(开源vs专有,大型vs小型)之间做出更明智的选择。
  3. 潜在应用场景和商业机会

    • 临床决策支持系统 (CDSS):开发更可靠的AI助手,辅助医生进行诊断、制定治疗方案,并清晰展示AI建议的可信度。
    • 医学教育和培训:利用LLM创建交互式学习工具,帮助医学生和医生学习和测试医学知识,同时培养他们对AI输出批判性思维的能力。
    • 患者咨询和健康管理:为患者提供初步的医学信息咨询,但必须带有明确的置信度指示和寻求专业医疗建议的提示。
    • AI模型验证和校准服务:针对医疗AI模型的准确性和置信度校准提供第三方验证和优化服务,可能成为一个新的商业增长点。
    • 提示工程优化平台/工具:开发自动化工具,帮助用户针对特定医疗任务和LLM优化提示策略,并评估其综合性能。
  4. 作为工程师应该关注的方面

    • 理解“准确还不够”:在开发医疗AI应用时,除了追求高准确率,必须同等重视模型的置信度校准。
    • 提示的细微差别:认识到即使是微小的提示词差异也可能显著影响模型的输出和行为。
    • 模型选择的权衡:根据具体应用场景,在模型性能、成本、可解释性、数据隐私(例如,是否可以本地部署开源模型 )之间进行权衡。
    • 持续评估和监控:LLM的行为可能随时间或数据变化而漂移,需要建立持续的评估和监控机制。
    • 学习校准技术:了解并掌握一些事后校准技术,以便在模型部署后进一步优化其置信度表达。
    • 关注不确定性量化:深入学习如何区分和处理认知不确定性和偶然不确定性。

五、未来研究方向、挑战与新机遇

  1. 值得进一步探索的问题和挑战

    • 更有效的置信度校准技术:开发与提示工程相结合或独立的事后校准方法,以有效缓解LLM的过度自信问题,特别是在分布外 (Out-of-Distribution) 数据上的表现。
    • 动态提示策略:研究能够根据对话上下文或问题复杂度动态调整的提示策略。
    • 可解释的置信度:不仅要让LLM给出置信度分数,还要让它能解释为什么会有这样的置信度,增强透明度和可信度。
    • 个性化提示:针对不同用户(如医生 vs. 患者)或不同医疗场景定制化提示。
    • 多模态LLM的置信度:随着LLM开始融合图像(如医学影像)、声音等多模态信息,如何评估和校准其多模态输出的置信度是一个新挑战。
    • 长期记忆和知识更新对置信度的影响:LLM如何在其知识库更新后,调整其对旧知识的置信度。
    • 对抗性提示和鲁棒性:研究LLM在面对有误导性或对抗性提示时的置信度表现和鲁棒性。
  2. 可能催生出的新技术和投资机会

    • 可信AI平台:专注于提供高可靠性、良好校准的LLM服务的平台,特别是在金融、医疗等高风险行业。
    • AI安全与伦理审计工具:用于评估和认证AI系统(尤其是LLM)的安全性、公平性和置信度可靠性的工具和服务。
    • 下一代提示工程框架:能够自动化生成、评估和优化提示,并内置置信度校准模块的开发框架。
    • 不确定性感知型LLM:设计出能够更好地内在地理解和表达不确定性的LLM架构。
    • “反思型AI”的商业应用:论文提到“反思型AI (reflective AI)” ,即鼓励模型展现认知谦逊。开发能体现这种特质的AI产品,在需要与人类协作和建立信任的场景中可能有独特优势。

六、论文不足与存疑

  1. 存在的不足及缺失

    • 数据集的局限性
      • 单一语言和文化背景:实验主要基于波斯语的医学考试题。 其结论在其他语言(如英语、中文)或其他国家的医学体系中的普适性有待验证。
      • 多项选择题格式:考试题是标准化的多项选择题。LLM在处理更开放式、更接近真实临床对话的查询时的表现和置信度校准情况可能不同。
      • 样本量:由于计算资源限制,仅使用了300道题的样本。 虽然采用了分层抽样,但更大规模的数据集能提供更强的统计效力。
    • 提示模板的固定性:每种提示类型(如CoT, Few-Shot)似乎使用了固定的模板。提示的具体措辞和结构也可能影响结果,这方面的敏感性分析可以更深入。
    • “o3-mini”模型的黑箱性:论文提到o3-mini模型架构未公开 ,这使得对其表现的深入分析(例如,为何其准确率高但ECE也高 )存在一定困难。
    • 事后校准方法的缺乏:论文多次强调事后校准的重要性 ,但并未实际应用或比较不同的事后校准技术对这些模型和提示组合的效果。
    • 对“情感提示”机制的探讨不足:虽然观察到情感提示会夸大置信度 ,但对其背后的认知机制(例如,模型是否在模仿人类在情感压力下的反应模式)缺乏更深入的探讨。
  2. 需要进一步验证和存疑之处

    • 情感提示的普遍效应:情感提示对置信度的夸大效应是否在所有类型的LLM和所有医学子领域都一致存在?其影响程度如何?
    • 温度设置的复杂影响:论文提到温度变化对校准指标(ECE、辨别度)没有统一的改善效果,且不同模型对温度的敏感性不同。 这种模型特异性值得进一步研究。
    • 置信度量纲的影响:从1-10到1-100的量纲变化,模型仅仅是“膨胀”了分数而未改善校准 ,这是否意味着更细粒度的量纲本身并无益处,还是说模型没有被很好地训练来利用这种细粒度?
    • 小型模型的潜力:虽然Llama-3.1-8B表现不佳 ,但未来是否有可能通过特定的预训练、微调或提示工程技术,使其在特定、复杂度较低的医疗子任务上达到可接受的准确性和校准水平?



–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: