ACR:面向自动队列检索的基准测试集

识别目标患者队列是众多医疗保健任务的基础,例如临床试验招募和回顾性研究等。目前,医疗机构主要依赖于对结构化数据的自动查询和人工整理来进行队列检索,这种方法效率低、成本高,且结果往往不尽如人意。大型语言模型(LLM)和信息检索(IR)技术的最新进展为彻底革新这些系统提供了 promising 的途径。 然而,构建高效的队列检索系统仍然面临着诸多挑战,例如如何管理复杂的入组标准、如何处理非结构化电子病历(EMR)的纵向性,以及如何确保解决方案在实际应用中兼顾成本效益等。 为此,本文提出了一项名为“自动队列检索”(ACR)的新任务,并对 LLM 以及商用领域专用神经符号方法的性能进行了评估。我们提供了一个基准测试任务、查询数据集、EMR 数据集和评估框架,旨在推动高效、高质量 ACR 系统的开发,使其能够在大型患者数据库中进行纵向推理。

1. 研究目标

论文的研究目标是定义一个新的任务——自动患者队列检索(Automatic Cohort Retrieval, ACR),并评估大型语言模型(LLMs)和商用神经符号方法在该任务上的性能。具体来说,ACR任务旨在从大规模、纵向的电子病历(EMRs)中自动检索满足特定查询条件的患者队列。

解决的实际问题

当前医疗组织中的患者队列检索方法主要依赖于结构化数据的自动化查询结合人工审查,这种方法耗时费力且常常产生低质量的结果。论文指出,随着电子病历的复杂性和数量的增加,迫切需要一种高效、高质量的ACR系统,能够在海量患者数据中实现纵向推理。

是否是一个新问题

,ACR作为一个结合大型语言模型和医疗信息检索的新任务,在医疗信息化领域是一个新兴的研究方向。之前虽有关于患者队列检索的研究,但多聚焦于结构化数据或单一文档的检索,缺乏对大规模、纵向电子病历的有效处理。

对产业发展的重要意义

ACR系统的成功开发将对临床研究和医疗实践产生深远影响,包括但不限于:

  • 提高临床试验招募效率:自动筛选符合条件的患者,加速临床试验进程。
  • 支持回顾性研究:快速生成患者队列,为流行病学研究和疾病机理分析提供数据支持。
  • 优化医疗资源分配:基于精准的患者队列分析,优化治疗路径和资源配置。

2. 新的思路与方法

论文提出了ACR任务,并设计了三种基线方法来评估其性能:

  1. Retriever-only方法:使用LLM将患者文档嵌入向量数据库,通过相似度检索相关文档,进而构建患者队列。
  2. Retrieve-then-read方法:在Retriever-only基础上增加LLM作为“reader”,对检索到的文档进行进一步分析,以提高队列的准确性。
  3. 神经符号方法(Hypercube):结合LLMs、医疗本体和符号推理,进行高效的纵向和大规模推理。

解决方案的关键

  • 纵向推理能力:处理跨越多年、包含数百甚至数千份报告的患者电子病历,解决其中的逻辑、因果、空间和时间推理问题。
  • 高效的大规模推理:在数百万患者的大型数据库中实现实时或接近实时的队列检索。

特点与优势

与之前的方法相比,ACR任务及其基线方法具有以下特点和优势:

  • 处理复杂查询:支持包含多个标准和逻辑关系的复杂查询。
  • 处理大规模、纵向数据:有效应对电子病历的复杂性和数据量。
  • 提高检索质量:通过结合LLMs和符号推理,提高队列检索的准确率和一致性。

3.实验设计

论文设计了详尽的实验来验证ACR基线方法的有效性,包括:

  • 数据集:使用包含1436名患者的EMR数据集,涵盖115,865份医疗记录,以及一个包含113个复杂查询的查询数据集。
  • 评估框架:提出包括检索质量、幻觉倾向和集合一致性在内的多维度评估框架,采用精确率、召回率和F1分数等指标。

实验数据和结果

  • Retriever-only方法:在Broad查询上表现尚可,但在Narrow和Sparse查询上表现较差,反映出其在处理复杂查询时的局限性。
  • Retrieve-then-read方法:显著提高精确率,但召回率有所下降,整体F1分数有所提升,表明reader在验证队列成员资格方面的有效性,但计算成本高昂。
  • 神经符号方法(Hypercube):在所有查询类别上均表现出最佳性能,特别是在处理复杂和纵向数据时,表现出色。

支持科学假设

实验数据很好地支持了论文的科学假设,即结合LLMs和符号推理的神经符号方法在处理ACR任务时具有显著优势。Hypercube的表现验证了该方法在高效大规模推理和高质量队列检索方面的有效性。

4. 论文贡献

  • 定义ACR任务:为医疗信息化领域引入了一个新的研究方向。
  • 提供基准数据集和评估框架:为后续研究提供了标准化的实验平台和评估指标。
  • 评估基线方法:通过三种基线方法的详细评估,揭示了ACR系统的优势和挑战。

对业界的影响

  • 推动ACR系统研发:激励更多研究者关注ACR任务,推动相关技术的发展。
  • 提升医疗信息化水平:ACR系统的应用将显著提升医疗数据的利用效率和价值。

潜在应用场景

  • 临床试验招募:快速筛选符合入选标准的患者。
  • 回顾性研究:自动生成满足特定条件的患者队列,支持疾病分析和治疗效果评估。
  • 医疗资源优化:基于队列分析,优化医疗资源配置和服务流程。

商业机会

  • ACR系统开发:开发高效的ACR系统并推向市场,满足医疗机构和科研机构的需求。
  • 数据服务:提供基于ACR技术的患者队列检索和数据分析服务。

工程师应关注的方面

  • 技术实现:关注LLMs、符号推理和医疗本体等关键技术的实现细节。
  • 系统优化:研究如何提升ACR系统的检索效率和准确性,降低计算成本。
  • 应用场景拓展:探索ACR技术在更多医疗场景中的应用潜力。

5. 进一步探索的问题和挑战

  • 提高纵向推理能力:开发更强大的纵向推理算法,以处理更复杂、更长的患者病历。
  • 优化大规模推理效率:在保证检索质量的前提下,降低计算成本,实现实时或接近实时的队列检索。
  • 增强模型可解释性:提高ACR系统的透明度和可解释性,以满足医疗领域的合规性要求。

新的技术和投资机会

  • 高级纵向推理技术:如基于知识图谱和强化学习的推理算法,可能催生出新的ACR解决方案。
  • 高效计算平台:针对大规模医疗数据的处理需求,开发专用的计算平台和硬件加速技术。
  • 数据安全和隐私保护:在ACR系统中集成高级加密和隐私保护技术,保障患者数据的安全性和合规性。

6. 不足及缺失

  • 数据集局限性:当前数据集虽已具备一定规模,但可能无法全面反映真实医疗环境中的复杂性和多样性。
  • 方法透明度:Hypercube作为商用黑盒系统,其内部机制未完全公开,难以进行深入的对比分析。
  • 幻觉倾向分析:论文虽然提出了幻觉倾向的概念,但分析仍较为初步,缺乏更深入的原因探究和解决方案。

需要进一步验证和存疑的

  • 方法的普适性:ACR方法在其他医疗领域和不同数据集上的表现有待进一步验证。
  • 长期效果评估:ACR系统在临床实践中的长期效果和潜在影响需进行长期跟踪评估。
  • 幻觉倾向控制:开发有效的幻觉倾向控制策略,以提高ACR系统的准确性和可靠性。

7. 学到的内容和启发

  • ACR任务的重要性:了解ACR任务在医疗信息化领域的重要性和应用潜力。
  • 多方法结合的必要性:认识到在处理复杂医疗数据时,结合多种技术方法(如LLMs和符号推理)的必要性。
  • 评估框架的构建:学习到如何构建科学的评估框架来全面评估新方法的性能。

需要补充的背景知识

  • 电子病历(EMRs):了解EMRs的基本概念、结构和特点,以及其在医疗信息化中的应用。
  • 大型语言模型(LLMs):掌握LLMs的基本原理、训练方法和应用场景,以及其在医疗领域的应用前景。
  • 信息检索(IR):学习IR领域的基础知识,包括索引、查询处理和结果排序等关键技术。
  • 医疗本体和符号推理:了解医疗本体的构建和应用,以及符号推理在医疗决策支持中的作用

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

人机协作:实现最精准鉴别诊断的途径

人工智能系统,尤其是大型语言模型(LLM),正越来越多地应用于影响个人乃至整个社会的高风险决策领域。然而,这类应用往往缺乏足够的保障机制来确保其安全性、可靠性和公平性。LLM 固有的缺陷,例如产生幻觉 、缺乏常识  以及存在偏见 ,可能源于其自身的局限性,而通过更复杂的架构、更多的数据或更多的人工反馈未必能够完全克服。因此,仅仅依靠 LLM 做出复杂、高风险的决策存在着很大风险。 为此,我们提出了一种混合集体智能系统,旨在结合人类经验和 LLM 的海量信息处理能力,以降低决策风险。我们将该系统应用于开放式医学诊断领域,整合了医生做出的 40,762 个鉴别诊断结果和五个最先进的 LLM 对 2,133 个病例的诊断结果。研究表明,医生与 LLM 组成的混合集体在诊断准确率方面优于单独的医生、医生团队、单个 LLM 以及 LLM 集成的结果。这一结论在不同的医学专业和医生经验水平上均成立,体现了人类和 LLM 在诊断过程中形成互补、减少不同类型错误的优势。 我们的研究强调了人机协作在提高复杂、开放性领域(如医学诊断)决策准确性方面的巨大潜力。

一、论文的研究目标及问题背景

研究目标

研究目标论文旨在通过结合人类专家和大型语言模型(LLMs)的优势,提升在开放性问题域(如医疗诊断)中的决策准确性,减少错误,并提出一种混合集体智能系统来实现这一目标。

实际问题及重要性

实际问题:论文关注医疗诊断中的决策准确性问题,特别是诊断错误导致的严重后果。医疗诊断错误在美国每年导致约795,000人死亡和永久性残疾。随着人工智能(AI)技术的发展,特别是LLMs的兴起,其在医疗领域的应用潜力巨大,但LLMs存在幻觉、缺乏常识和偏见等问题,限制了其在实际医疗决策中的单独使用。

问题重要性:提高医疗诊断的准确性,减少人为和AI错误,对于改善全球患者预后至关重要。LLMs虽然在处理自然语言和理解医学知识方面表现出色,但其局限性也明显。如何结合人类专家的经验和LLMs的信息处理能力,成为提升医疗决策质量的关键问题。

二、论文提出的新思路、方法或模型

新思路

论文提出了一种混合集体智能系统,该系统结合人类专家和LLMs的互补优势,通过集体决策提高医疗诊断的准确性。具体而言,系统收集多个医生和多个LLMs的诊断意见,并通过加权聚合算法生成集体诊断结果。

方法与模型

方法

  1. 数据收集:使用Human Dx平台上的真实医疗案例数据,包括医生提供的诊断和五个最先进的LLMs(Anthropic Claude3Opus、Google Gemini Pro1.0、Meta Llama270B、Mistral Large、OpenAI GPT-4)的诊断结果。
  2. 诊断标准化:将医生和LLMs的自由文本诊断映射到系统命名法医学临床术语(SNOMED CT)中的唯一概念ID,以实现诊断的可比性。
  3. 加权聚合:通过加权多数投票集成(WMVE)方法,根据医生和LLMs在训练集上的表现计算权重,并据此聚合生成集体诊断结果。

模型

  • 集体智能模型:通过结合多个独立决策者的意见,减少单一决策者的偏见和错误,提高整体决策的准确性。
  • 加权集成算法:根据各决策者的性能动态调整其在集体决策中的权重,确保高性能决策者在结果中的更大影响力。

特点与优势

与单独使用人类专家或LLMs相比,混合集体智能系统具有以下特点和优势:

  • 互补性:人类专家和LLMs在诊断过程中犯不同类型的错误,混合系统能够结合双方的优点,减少整体错误率。
  • 动态加权:通过WMVE方法动态调整权重,使得集体诊断更加准确和可靠。
  • 开放性问题域适用性:该方法不仅适用于医疗诊断,还可以推广到其他需要复杂决策和集体智慧的开放性问题域。

三、实验设计与结果

实验设计

实验设计

  1. 数据划分:采用五折交叉验证方法,将数据集分为五个部分,每次使用其中一部分作为训练集,其余部分作为测试集。
  2. 提示工程:针对每个LLMs,设计多种提示(prompt)组合,通过训练集确定最佳提示配置。
  3. 性能评估:评估单个LLMs、LLMs集成、人类专家集体以及混合集体智能系统在不同性能指标(如Top-1、Top-3、Top-5准确率和平均倒数排名MRR)下的表现。

实验数据与结果

实验数据:论文使用了Human Dx平台上的2,133个医疗案例和40,762个医生诊断结果。

关键结果

  • LLMs集成:与单个LLMs相比,集成多个LLMs显著提高了诊断准确性(如图2所示)。
  • 混合集体智能系统:结合人类专家和LLMs的混合集体智能系统在所有性能指标上均优于单独使用人类专家或LLMs(如图3所示)。
  • 互补性分析:人类专家和LLMs在诊断过程中犯不同类型的错误,混合系统能够通过互补减少整体错误率(如图4所示)。

引用关键数据

"For top-5 accuracy, the ensemble of all LLMs combined clearly outperformed each LLM individually, and this result held across the five most common medical specialties in our data (cardiology, gastroenterology, pulmonology and respirology, neurology, and infectious diseases; see Extended Data Fig. S2)."

四、论文的贡献、业界影响及应用前景

论文贡献

  1. 提出混合集体智能系统:首次提出结合人类专家和LLMs的混合集体智能系统,用于提升医疗诊断的准确性。
  2. 实验验证:通过大规模实验验证了混合系统在不同医学领域和专家经验水平下的优越性。
  3. 互补性分析:深入分析了人类专家和LLMs在诊断过程中的错误互补性,揭示了混合系统减少错误率的机制。

业界影响

  • 医疗信息化:推动医疗诊断向更智能化、精准化方向发展,提高医疗服务质量和效率。
  • AI应用拓展:为LLMs在医疗领域的应用提供了新的思路和方法,促进AI技术在医疗行业的广泛应用。
  • 集体智能研究:为集体智能领域的研究提供了新的视角和实验证据,促进该领域的发展。

应用前景与商业机会

  • 智能诊断辅助系统:开发基于混合集体智能系统的智能诊断辅助工具,帮助医生提高诊断准确性。
  • 医疗决策支持系统:构建医疗决策支持系统,集成多种数据源和决策模型,为医生提供全面的决策支持。
  • 健康管理与咨询服务:结合智能诊断和健康监测技术,提供个性化的健康管理和咨询服务。

工程师应关注的方面

  • 数据处理与标准化:关注医疗数据的收集、处理和标准化方法,确保数据的准确性和可比性。
  • 模型集成与优化:研究不同模型(包括LLMs和人类专家)的集成方法,优化集体决策算法。
  • 系统安全与隐私保护:确保智能诊断系统的安全性和患者隐私保护,避免数据泄露和滥用。

五、未来研究方向与挑战

研究方向

  1. 更复杂的提示工程:研究更复杂的提示工程技术,进一步提升LLMs的诊断性能。
  2. 跨领域应用:探索混合集体智能系统在非医疗领域的应用,如气候变化适应管理、金融风险评估等。
  3. 公平性与偏见问题:研究如何在混合系统中减少偏见,确保诊断结果的公平性和公正性。

挑战

  1. 数据质量与可用性:获取高质量、多样化的医疗数据是系统性能提升的关键挑战。
  2. 模型可解释性:提高混合集体智能系统的可解释性,帮助医生理解诊断结果背后的逻辑和依据。
  3. 伦理与法律问题:确保系统的部署符合伦理和法律要求,避免潜在的偏见和歧视问题。

六、论文的不足与存疑之处

不足

  1. 生态效度:论文使用的数据来源于Human Dx平台,其生态效度可能有限,难以完全代表真实临床场景。
  2. 治疗后果分析:论文未分析不同诊断结果对治疗选择和患者预后的影响。
  3. 公平性评估:论文未对系统在不同患者群体中的公平性进行评估。

存疑

  1. 系统鲁棒性:混合集体智能系统在面对罕见或复杂病例时的鲁棒性尚需进一步验证。
  2. 人类专家参与度:如何确保人类专家在系统中的持续参与和高质量贡献,是系统长期运行的关键问题。
  3. 实时性:LLMs的响应时间可能影响系统在紧急医疗场景中的应用。

七、非技术背景读者的启发与补充知识

启发

  1. 跨学科合作的重要性:论文展示了跨学科合作(如医学与AI)在解决复杂问题中的巨大潜力。
  2. 集体智慧的力量:通过结合多个独立决策者的意见,可以显著提升整体决策的准确性。
  3. AI技术的局限性与解决方案:认识到AI技术的局限性,并通过混合方法(如结合人类专家)来弥补这些局限性。

补充知识

  • 大型语言模型(LLMs):一种能够处理自然语言任务(如问答、文本生成)的深度学习模型,具有强大的文本理解和生成能力。
  • 系统命名法医学临床术语(SNOMED CT):一种用于标准化医学概念和术语的编码系统,有助于医疗信息的准确交流和共享。
  • 集体智能:通过集合多个独立决策者的意见来解决问题的一种方法,旨在利用群体的智慧提高决策的准确性。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.