Digital Health Insider

大型语言模型在医学问答中的不确定性量化

大型语言模型（LLM）在医疗领域展现出自然语言生成方面的巨大潜力，但同时也存在编造不实信息的风险。将 LLMs 应用于医学问答系统，需要可靠的不确定性估计（UE）方法来识别这类“幻觉”。本研究对不同规模模型在医学问答数据集上的主流 UE 方法进行了基准测试。结果表明，现有方法在该领域的整体表现不佳，凸显了医学领域 UE 所面临的挑战。我们还观察到，模型规模越大，其结果往往越准确，这意味着模型大小与 UE 可靠性之间存在相关性。为了解决上述问题，我们提出了一种名为“两阶段验证”的无概率不确定性估计方法。该方法首先利用 LLM 生成一个包含推理步骤的解释，并基于此生成验证性问题，用以核实解释中的事实性陈述。随后，模型会独立回答这些问题两次，一次不参考解释，一次参考解释。两次回答之间的差异反映了原始答案的不确定性。我们在三个生物医学问答数据集上，使用 Llama2 聊天模型对该方法进行了评估，并与其他基准方法进行了比较。结果表明，“两阶段验证”方法在不同数据集和模型规模上均表现出最佳的准确性和稳定性，且性能随模型规模的增大而提升。

1. 论文的研究目标及解决的问题

研究目标：
论文的主要研究目标是评估大型语言模型（LLMs）在医疗问答任务中的不确定性估计（Uncertainty Estimation, UE）性能，并提出一种有效的不确定性估计方法以检测模型生成的错误或“幻觉”信息。

实际问题：
在医疗领域，部署大型语言模型用于辅助诊断、临床决策和患者沟通时，模型可能会生成虽然合理但事实上不正确的信息，这种现象被称为“幻觉”。由于医疗决策的高风险性，确保模型输出的可靠性至关重要。因此，需要一种有效的不确定性估计方法来识别模型输出中的不确定性和幻觉信息。

问题的新颖性与重要性：
这是一个相对较新的问题，特别是在LLMs应用于医疗领域的背景下。由于医疗决策直接影响人类生命，确保模型输出的准确性和可靠性对于医疗AI的发展具有重要意义。这不仅关乎技术本身的进步，也影响到公众对AI医疗的信任度及其广泛应用的可能性。

2. 论文提出的新思路、方法或模型

新思路与方法：
论文提出了**两阶段验证（Two-phase Verification）**方法，这是一种不依赖于概率的不确定性估计方法。具体步骤如下：

生成逐步解释：对于每个问题，LLM生成一个初步答案，并附带逐步解释。
规划验证问题：针对解释中的每个步骤，模型生成验证问题，以检查事实声明的真实性。
执行验证：模型首先独立回答验证问题，然后参考初步解释再次回答相同问题。通过比较两次回答的不一致性来评估不确定性。

关键与优势：

不依赖于概率：与基于熵的方法不同，两阶段验证不依赖于模型输出的概率分布，因此可以应用于黑盒模型。
逐步解释：将模型推理过程分解为可独立验证的步骤，增强了验证的细致性和准确性。
不一致性检测：通过比较独立回答和参考解释后的回答，有效地识别出潜在的幻觉信息。

3. 实验设计与结果

实验设计：

模型：使用Llama2Chat模型，包括7B和13B两种规模。
数据集：三个生物医学问答数据集（PubMedQA、MedQA、MedMCQA），覆盖不同类型的医疗问题。
基准方法：包括Lexical Similarity、Semantic Entropy、Predictive Entropy、Length-normalized Entropy、Step Verification和Chain-of-Verification。

实验结果：

基准方法表现：大多数基准方法在医疗问答任务中的不确定性估计性能不佳，特别是小模型表现更差。
两阶段验证表现：在所有实验组合中，两阶段验证方法实现了最高的平均AUROC分数（0.5858），并且随着模型规模的增加，性能也显著提升。
稳定性和可扩展性：两阶段验证方法在不同数据集和模型规模下均表现出稳定且优异的性能。

关键数据引用：

"Table 1显示了各种不确定性估计方法在不同数据集和模型规模下的AUROC结果。两阶段验证方法（Two-phase Verification）在大多数组合中取得了最高AUROC分数，并且平均AUROC（0.5858）显著高于其他方法。"

4. 论文的贡献与业界影响

贡献：

提出新方法：两阶段验证方法为医疗问答中的不确定性估计提供了一种有效的新思路。
性能显著提升：相比现有方法，两阶段验证在多个数据集和模型规模下均表现出更优性能。
推动医疗AI发展：为医疗领域LLMs的可靠部署提供了技术支持，增强了公众对AI医疗的信任度。

业界影响与商业机会：

增强AI医疗应用的可靠性：通过有效的不确定性估计，提高AI医疗决策的准确性，减少误诊风险。
推动AI医疗产品的商业化：提高产品性能和市场接受度，为AI医疗企业带来更多商业机会。
拓展应用场景：如智能诊断助手、远程医疗咨询、个性化治疗方案推荐等。

5. 未来研究方向与挑战

研究方向：

优化验证问题生成：提高验证问题的质量和相关性，以更准确地检测模型输出中的幻觉信息。
集成外部知识库：利用专业医疗知识库提升模型对验证问题的回答质量，进一步增强不确定性估计的准确性。
跨领域应用探索：将两阶段验证方法应用于其他高风险领域，如法律、金融等。

挑战：

知识获取与表示：如何高效获取并准确表示专业领域的知识，是提升LLMs性能的关键。
模型可解释性：提高LLMs的可解释性，有助于更好地理解和评估模型输出。
计算资源需求：大规模模型的训练和推理需要高昂的计算资源，如何优化资源使用是一个挑战。

6. 论文的不足与存疑

不足：

验证问题生成的局限性：验证问题的生成可能受模型语言连贯性和上下文理解能力的限制，影响验证效果。
依赖模型内部逻辑：尽管不依赖于概率，但两阶段验证仍依赖于模型内部的推理逻辑，存在潜在偏差。

存疑：

不同领域适应性：论文主要关注医疗领域，该方法在其他领域的应用效果尚待验证。
长期性能稳定性：随着模型的不断更新和迭代，两阶段验证方法的长期性能稳定性仍需进一步观察。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

ACR：面向自动队列检索的基准测试集

识别目标患者队列是众多医疗保健任务的基础，例如临床试验招募和回顾性研究等。目前，医疗机构主要依赖于对结构化数据的自动查询和人工整理来进行队列检索，这种方法效率低、成本高，且结果往往不尽如人意。大型语言模型（LLM）和信息检索（IR）技术的最新进展为彻底革新这些系统提供了 promising 的途径。然而，构建高效的队列检索系统仍然面临着诸多挑战，例如如何管理复杂的入组标准、如何处理非结构化电子病历（EMR）的纵向性，以及如何确保解决方案在实际应用中兼顾成本效益等。为此，本文提出了一项名为“自动队列检索”（ACR）的新任务，并对 LLM 以及商用领域专用神经符号方法的性能进行了评估。我们提供了一个基准测试任务、查询数据集、EMR 数据集和评估框架，旨在推动高效、高质量 ACR 系统的开发，使其能够在大型患者数据库中进行纵向推理。

1. 研究目标

论文的研究目标是定义一个新的任务——自动患者队列检索（Automatic Cohort Retrieval, ACR），并评估大型语言模型（LLMs）和商用神经符号方法在该任务上的性能。具体来说，ACR任务旨在从大规模、纵向的电子病历（EMRs）中自动检索满足特定查询条件的患者队列。

解决的实际问题

当前医疗组织中的患者队列检索方法主要依赖于结构化数据的自动化查询结合人工审查，这种方法耗时费力且常常产生低质量的结果。论文指出，随着电子病历的复杂性和数量的增加，迫切需要一种高效、高质量的ACR系统，能够在海量患者数据中实现纵向推理。

是否是一个新问题

是，ACR作为一个结合大型语言模型和医疗信息检索的新任务，在医疗信息化领域是一个新兴的研究方向。之前虽有关于患者队列检索的研究，但多聚焦于结构化数据或单一文档的检索，缺乏对大规模、纵向电子病历的有效处理。

对产业发展的重要意义

ACR系统的成功开发将对临床研究和医疗实践产生深远影响，包括但不限于：

提高临床试验招募效率：自动筛选符合条件的患者，加速临床试验进程。
支持回顾性研究：快速生成患者队列，为流行病学研究和疾病机理分析提供数据支持。
优化医疗资源分配：基于精准的患者队列分析，优化治疗路径和资源配置。

2. 新的思路与方法

论文提出了ACR任务，并设计了三种基线方法来评估其性能：

Retriever-only方法：使用LLM将患者文档嵌入向量数据库，通过相似度检索相关文档，进而构建患者队列。
Retrieve-then-read方法：在Retriever-only基础上增加LLM作为“reader”，对检索到的文档进行进一步分析，以提高队列的准确性。
神经符号方法（Hypercube）：结合LLMs、医疗本体和符号推理，进行高效的纵向和大规模推理。

解决方案的关键

纵向推理能力：处理跨越多年、包含数百甚至数千份报告的患者电子病历，解决其中的逻辑、因果、空间和时间推理问题。
高效的大规模推理：在数百万患者的大型数据库中实现实时或接近实时的队列检索。

特点与优势

与之前的方法相比，ACR任务及其基线方法具有以下特点和优势：

处理复杂查询：支持包含多个标准和逻辑关系的复杂查询。
处理大规模、纵向数据：有效应对电子病历的复杂性和数据量。
提高检索质量：通过结合LLMs和符号推理，提高队列检索的准确率和一致性。

3.实验设计

论文设计了详尽的实验来验证ACR基线方法的有效性，包括：

数据集：使用包含1436名患者的EMR数据集，涵盖115,865份医疗记录，以及一个包含113个复杂查询的查询数据集。
评估框架：提出包括检索质量、幻觉倾向和集合一致性在内的多维度评估框架，采用精确率、召回率和F1分数等指标。

实验数据和结果

Retriever-only方法：在Broad查询上表现尚可，但在Narrow和Sparse查询上表现较差，反映出其在处理复杂查询时的局限性。
Retrieve-then-read方法：显著提高精确率，但召回率有所下降，整体F1分数有所提升，表明reader在验证队列成员资格方面的有效性，但计算成本高昂。
神经符号方法（Hypercube）：在所有查询类别上均表现出最佳性能，特别是在处理复杂和纵向数据时，表现出色。

支持科学假设

实验数据很好地支持了论文的科学假设，即结合LLMs和符号推理的神经符号方法在处理ACR任务时具有显著优势。Hypercube的表现验证了该方法在高效大规模推理和高质量队列检索方面的有效性。

4. 论文贡献

定义ACR任务：为医疗信息化领域引入了一个新的研究方向。
提供基准数据集和评估框架：为后续研究提供了标准化的实验平台和评估指标。
评估基线方法：通过三种基线方法的详细评估，揭示了ACR系统的优势和挑战。

对业界的影响

推动ACR系统研发：激励更多研究者关注ACR任务，推动相关技术的发展。
提升医疗信息化水平：ACR系统的应用将显著提升医疗数据的利用效率和价值。

潜在应用场景

临床试验招募：快速筛选符合入选标准的患者。
回顾性研究：自动生成满足特定条件的患者队列，支持疾病分析和治疗效果评估。
医疗资源优化：基于队列分析，优化医疗资源配置和服务流程。

商业机会

ACR系统开发：开发高效的ACR系统并推向市场，满足医疗机构和科研机构的需求。
数据服务：提供基于ACR技术的患者队列检索和数据分析服务。

工程师应关注的方面

技术实现：关注LLMs、符号推理和医疗本体等关键技术的实现细节。
系统优化：研究如何提升ACR系统的检索效率和准确性，降低计算成本。
应用场景拓展：探索ACR技术在更多医疗场景中的应用潜力。

5. 进一步探索的问题和挑战

提高纵向推理能力：开发更强大的纵向推理算法，以处理更复杂、更长的患者病历。
优化大规模推理效率：在保证检索质量的前提下，降低计算成本，实现实时或接近实时的队列检索。
增强模型可解释性：提高ACR系统的透明度和可解释性，以满足医疗领域的合规性要求。

新的技术和投资机会

高级纵向推理技术：如基于知识图谱和强化学习的推理算法，可能催生出新的ACR解决方案。
高效计算平台：针对大规模医疗数据的处理需求，开发专用的计算平台和硬件加速技术。
数据安全和隐私保护：在ACR系统中集成高级加密和隐私保护技术，保障患者数据的安全性和合规性。

6. 不足及缺失

数据集局限性：当前数据集虽已具备一定规模，但可能无法全面反映真实医疗环境中的复杂性和多样性。
方法透明度：Hypercube作为商用黑盒系统，其内部机制未完全公开，难以进行深入的对比分析。
幻觉倾向分析：论文虽然提出了幻觉倾向的概念，但分析仍较为初步，缺乏更深入的原因探究和解决方案。

需要进一步验证和存疑的

方法的普适性：ACR方法在其他医疗领域和不同数据集上的表现有待进一步验证。
长期效果评估：ACR系统在临床实践中的长期效果和潜在影响需进行长期跟踪评估。
幻觉倾向控制：开发有效的幻觉倾向控制策略，以提高ACR系统的准确性和可靠性。

7. 学到的内容和启发

ACR任务的重要性：了解ACR任务在医疗信息化领域的重要性和应用潜力。
多方法结合的必要性：认识到在处理复杂医疗数据时，结合多种技术方法（如LLMs和符号推理）的必要性。
评估框架的构建：学习到如何构建科学的评估框架来全面评估新方法的性能。

需要补充的背景知识

电子病历（EMRs）：了解EMRs的基本概念、结构和特点，以及其在医疗信息化中的应用。
大型语言模型（LLMs）：掌握LLMs的基本原理、训练方法和应用场景，以及其在医疗领域的应用前景。
信息检索（IR）：学习IR领域的基础知识，包括索引、查询处理和结果排序等关键技术。
医疗本体和符号推理：了解医疗本体的构建和应用，以及符号推理在医疗决策支持中的作用

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.