人机协作:实现最精准鉴别诊断的途径

人工智能系统,尤其是大型语言模型(LLM),正越来越多地应用于影响个人乃至整个社会的高风险决策领域。然而,这类应用往往缺乏足够的保障机制来确保其安全性、可靠性和公平性。LLM 固有的缺陷,例如产生幻觉 、缺乏常识  以及存在偏见 ,可能源于其自身的局限性,而通过更复杂的架构、更多的数据或更多的人工反馈未必能够完全克服。因此,仅仅依靠 LLM 做出复杂、高风险的决策存在着很大风险。 为此,我们提出了一种混合集体智能系统,旨在结合人类经验和 LLM 的海量信息处理能力,以降低决策风险。我们将该系统应用于开放式医学诊断领域,整合了医生做出的 40,762 个鉴别诊断结果和五个最先进的 LLM 对 2,133 个病例的诊断结果。研究表明,医生与 LLM 组成的混合集体在诊断准确率方面优于单独的医生、医生团队、单个 LLM 以及 LLM 集成的结果。这一结论在不同的医学专业和医生经验水平上均成立,体现了人类和 LLM 在诊断过程中形成互补、减少不同类型错误的优势。 我们的研究强调了人机协作在提高复杂、开放性领域(如医学诊断)决策准确性方面的巨大潜力。

一、论文的研究目标及问题背景

研究目标

研究目标论文旨在通过结合人类专家和大型语言模型(LLMs)的优势,提升在开放性问题域(如医疗诊断)中的决策准确性,减少错误,并提出一种混合集体智能系统来实现这一目标。

实际问题及重要性

实际问题:论文关注医疗诊断中的决策准确性问题,特别是诊断错误导致的严重后果。医疗诊断错误在美国每年导致约795,000人死亡和永久性残疾。随着人工智能(AI)技术的发展,特别是LLMs的兴起,其在医疗领域的应用潜力巨大,但LLMs存在幻觉、缺乏常识和偏见等问题,限制了其在实际医疗决策中的单独使用。

问题重要性:提高医疗诊断的准确性,减少人为和AI错误,对于改善全球患者预后至关重要。LLMs虽然在处理自然语言和理解医学知识方面表现出色,但其局限性也明显。如何结合人类专家的经验和LLMs的信息处理能力,成为提升医疗决策质量的关键问题。

二、论文提出的新思路、方法或模型

新思路

论文提出了一种混合集体智能系统,该系统结合人类专家和LLMs的互补优势,通过集体决策提高医疗诊断的准确性。具体而言,系统收集多个医生和多个LLMs的诊断意见,并通过加权聚合算法生成集体诊断结果。

方法与模型

方法

  1. 数据收集:使用Human Dx平台上的真实医疗案例数据,包括医生提供的诊断和五个最先进的LLMs(Anthropic Claude3Opus、Google Gemini Pro1.0、Meta Llama270B、Mistral Large、OpenAI GPT-4)的诊断结果。
  2. 诊断标准化:将医生和LLMs的自由文本诊断映射到系统命名法医学临床术语(SNOMED CT)中的唯一概念ID,以实现诊断的可比性。
  3. 加权聚合:通过加权多数投票集成(WMVE)方法,根据医生和LLMs在训练集上的表现计算权重,并据此聚合生成集体诊断结果。

模型

  • 集体智能模型:通过结合多个独立决策者的意见,减少单一决策者的偏见和错误,提高整体决策的准确性。
  • 加权集成算法:根据各决策者的性能动态调整其在集体决策中的权重,确保高性能决策者在结果中的更大影响力。

特点与优势

与单独使用人类专家或LLMs相比,混合集体智能系统具有以下特点和优势:

  • 互补性:人类专家和LLMs在诊断过程中犯不同类型的错误,混合系统能够结合双方的优点,减少整体错误率。
  • 动态加权:通过WMVE方法动态调整权重,使得集体诊断更加准确和可靠。
  • 开放性问题域适用性:该方法不仅适用于医疗诊断,还可以推广到其他需要复杂决策和集体智慧的开放性问题域。

三、实验设计与结果

实验设计

实验设计

  1. 数据划分:采用五折交叉验证方法,将数据集分为五个部分,每次使用其中一部分作为训练集,其余部分作为测试集。
  2. 提示工程:针对每个LLMs,设计多种提示(prompt)组合,通过训练集确定最佳提示配置。
  3. 性能评估:评估单个LLMs、LLMs集成、人类专家集体以及混合集体智能系统在不同性能指标(如Top-1、Top-3、Top-5准确率和平均倒数排名MRR)下的表现。

实验数据与结果

实验数据:论文使用了Human Dx平台上的2,133个医疗案例和40,762个医生诊断结果。

关键结果

  • LLMs集成:与单个LLMs相比,集成多个LLMs显著提高了诊断准确性(如图2所示)。
  • 混合集体智能系统:结合人类专家和LLMs的混合集体智能系统在所有性能指标上均优于单独使用人类专家或LLMs(如图3所示)。
  • 互补性分析:人类专家和LLMs在诊断过程中犯不同类型的错误,混合系统能够通过互补减少整体错误率(如图4所示)。

引用关键数据

"For top-5 accuracy, the ensemble of all LLMs combined clearly outperformed each LLM individually, and this result held across the five most common medical specialties in our data (cardiology, gastroenterology, pulmonology and respirology, neurology, and infectious diseases; see Extended Data Fig. S2)."

四、论文的贡献、业界影响及应用前景

论文贡献

  1. 提出混合集体智能系统:首次提出结合人类专家和LLMs的混合集体智能系统,用于提升医疗诊断的准确性。
  2. 实验验证:通过大规模实验验证了混合系统在不同医学领域和专家经验水平下的优越性。
  3. 互补性分析:深入分析了人类专家和LLMs在诊断过程中的错误互补性,揭示了混合系统减少错误率的机制。

业界影响

  • 医疗信息化:推动医疗诊断向更智能化、精准化方向发展,提高医疗服务质量和效率。
  • AI应用拓展:为LLMs在医疗领域的应用提供了新的思路和方法,促进AI技术在医疗行业的广泛应用。
  • 集体智能研究:为集体智能领域的研究提供了新的视角和实验证据,促进该领域的发展。

应用前景与商业机会

  • 智能诊断辅助系统:开发基于混合集体智能系统的智能诊断辅助工具,帮助医生提高诊断准确性。
  • 医疗决策支持系统:构建医疗决策支持系统,集成多种数据源和决策模型,为医生提供全面的决策支持。
  • 健康管理与咨询服务:结合智能诊断和健康监测技术,提供个性化的健康管理和咨询服务。

工程师应关注的方面

  • 数据处理与标准化:关注医疗数据的收集、处理和标准化方法,确保数据的准确性和可比性。
  • 模型集成与优化:研究不同模型(包括LLMs和人类专家)的集成方法,优化集体决策算法。
  • 系统安全与隐私保护:确保智能诊断系统的安全性和患者隐私保护,避免数据泄露和滥用。

五、未来研究方向与挑战

研究方向

  1. 更复杂的提示工程:研究更复杂的提示工程技术,进一步提升LLMs的诊断性能。
  2. 跨领域应用:探索混合集体智能系统在非医疗领域的应用,如气候变化适应管理、金融风险评估等。
  3. 公平性与偏见问题:研究如何在混合系统中减少偏见,确保诊断结果的公平性和公正性。

挑战

  1. 数据质量与可用性:获取高质量、多样化的医疗数据是系统性能提升的关键挑战。
  2. 模型可解释性:提高混合集体智能系统的可解释性,帮助医生理解诊断结果背后的逻辑和依据。
  3. 伦理与法律问题:确保系统的部署符合伦理和法律要求,避免潜在的偏见和歧视问题。

六、论文的不足与存疑之处

不足

  1. 生态效度:论文使用的数据来源于Human Dx平台,其生态效度可能有限,难以完全代表真实临床场景。
  2. 治疗后果分析:论文未分析不同诊断结果对治疗选择和患者预后的影响。
  3. 公平性评估:论文未对系统在不同患者群体中的公平性进行评估。

存疑

  1. 系统鲁棒性:混合集体智能系统在面对罕见或复杂病例时的鲁棒性尚需进一步验证。
  2. 人类专家参与度:如何确保人类专家在系统中的持续参与和高质量贡献,是系统长期运行的关键问题。
  3. 实时性:LLMs的响应时间可能影响系统在紧急医疗场景中的应用。

七、非技术背景读者的启发与补充知识

启发

  1. 跨学科合作的重要性:论文展示了跨学科合作(如医学与AI)在解决复杂问题中的巨大潜力。
  2. 集体智慧的力量:通过结合多个独立决策者的意见,可以显著提升整体决策的准确性。
  3. AI技术的局限性与解决方案:认识到AI技术的局限性,并通过混合方法(如结合人类专家)来弥补这些局限性。

补充知识

  • 大型语言模型(LLMs):一种能够处理自然语言任务(如问答、文本生成)的深度学习模型,具有强大的文本理解和生成能力。
  • 系统命名法医学临床术语(SNOMED CT):一种用于标准化医学概念和术语的编码系统,有助于医疗信息的准确交流和共享。
  • 集体智能:通过集合多个独立决策者的意见来解决问题的一种方法,旨在利用群体的智慧提高决策的准确性。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

MedOdyssey:面向长文本(最高 20 万词)的医学领域基准测试集

近年来,大型语言模型(LLM)的上下文窗口长度显著提升,部分模型已达到 12.8 万词,甚至扩展至 20 万词。通用领域中也涌现出一些用于评估模型长文本处理能力的基准测试。医学领域由于其独特的语境和对专业知识的依赖,相关任务更具特殊性,需要进行专门的评估。然而,尽管医学场景中长文本十分常见,但目前仍缺乏针对该领域 LLM 长文本处理能力的基准测试。 为此,我们推出了 MedOdyssey,这是首个面向医学长文本的基准测试集,涵盖七个长度级别,范围从 4000 词到 20 万词。MedOdyssey 包含两大组成部分:医学语境下的“大海捞针”任务和一系列针对特定医学应用场景的任务,共计 10 个数据集。第一部分旨在通过反直觉推理和注入新(未知)事实等方式,缓解 LLMs 知识泄露和数据污染问题。第二部分则侧重于考察模型对专业医学知识的掌握程度。此外,我们还提出了“最大相同语境”原则,即确保不同 LLM 接收尽可能多的相同语境信息,以提高评估的公平性。 我们使用 MedOdyssey 对一系列专为长文本处理设计的高级商业和开源 LLMs 进行了评估,并提供了详细的性能分析结果。结果表明,LLMs 在处理医学长文本方面仍面临挑战,需要进一步深入研究。相关代码和数据已开源发布:https://github.com/JOHNNY-fans/MedOdyssey。

1. 研究目标

论文的主要研究目标是构建一个针对医疗领域的长上下文评估基准——MedOdyssey,以填补当前医疗领域长文本评估基准的空白。该基准旨在评估大型语言模型(LLMs)在处理长达200K标记的医疗文本时的性能。

解决的实际问题

随着LLMs在各个领域的应用日益广泛,其在处理长文本时的能力也备受关注。然而,在医疗领域,尽管长文本(如电子病历、医学书籍等)普遍存在,但专门针对医疗长文本评估的基准却相对匮乏。这限制了医疗LLMs性能评估的科学性和公平性。

是否是新问题

是的,这是一个新问题。尽管在通用领域已有一些长文本评估基准,但医疗领域的独特性(如专业术语多、知识密度高等)要求专门的评估方法和基准。

对产业发展的重要意义

医疗LLMs在处理长文本上的能力对于提升医疗服务质量、辅助医生决策、提高诊断准确率等方面具有重要意义。构建MedOdyssey基准不仅可以推动医疗LLMs技术的发展,还可以为医疗信息化和智能化进程提供有力支持,促进相关产业的发展。

2. 新的思路和方法

论文提出了MedOdyssey基准,该基准包含两部分:医疗上下文“大海捞针”任务(NIAH)和一系列针对医疗应用的特定任务。关键特点和创新包括:

  • 医疗上下文“大海捞针”任务:通过在长篇医疗文本中插入不相关信息(即“针”),然后要求LLMs回答问题,以评估其在长文本中定位和提取关键信息的能力。
  • 反直觉推理和新颖事实注入:为了防止数据泄露和污染,论文设计了反直觉推理问题和基于最新文献的新颖事实问题,增加了评估的难度和真实性。
  • 最大相同上下文原则(MIC):为确保不同LLMs在评估过程中观察到尽可能多的相同上下文,论文提出了MIC原则,通过固定字符到标记的转换比例来实现。

特点和优势

  • 针对性强:专门针对医疗领域的长文本评估,填补了该领域的空白。
  • 设计科学:通过反直觉推理、新颖事实注入和MIC原则,提高了评估的科学性和公平性。
  • 全面性和多样性:基准包含多种类型的医疗任务和数据集,能够全面评估LLMs在医疗领域的应用能力。

3. 实验设计

论文通过选取多种先进的LLMs(包括商业和开源模型),在MedOdyssey基准上进行了一系列实验来验证其有效性。实验设计了七个不同的上下文长度(从4K到200K标记),并在每个长度级别上评估了不同模型的性能。

实验数据和结果

实验数据显示,即使在最先进的LLMs(如GPT-4o)上,处理医疗长文本时仍存在显著挑战。例如,在NIAH任务中,随着上下文长度的增加,模型的性能普遍下降;在医疗相关任务中,模型对复杂问题的处理能力也有限。此外,开源模型在处理长文本时普遍表现不佳,无法正确格式化输出。

支持科学假设

实验结果很好地支持了论文的科学假设,即当前LLMs在处理医疗长文本时仍存在不足,需要进一步的研究和改进。同时,实验也验证了MedOdyssey基准的有效性和科学性。

4. 论文贡献

  • 构建了首个针对医疗领域的长文本评估基准MedOdyssey。
  • 提出了多种创新性的评估方法和原则(如MIC原则、反直觉推理等)。
  • 通过实验验证了当前LLMs在处理医疗长文本时的不足和挑战。

业界影响

  • 推动医疗LLMs技术的发展和改进。
  • 为医疗信息化和智能化进程提供有力支持。
  • 促进医疗领域数据科学和人工智能相关产业的发展。

潜在应用场景和商业机会

  • 智能辅助诊断:利用医疗LLMs处理电子病历和影像资料,辅助医生进行快速准确的诊断。
  • 个性化治疗方案推荐:结合患者病史和最新医学研究成果,为患者提供个性化的治疗方案建议。
  • 医学教育和培训:利用医疗LLMs生成虚拟病例和模拟考试,帮助医学学生和医生提升专业技能。

工程师应关注的方面

  • 模型优化:关注如何提升LLMs在处理长文本时的性能,特别是针对医疗领域的特定任务。
  • 数据质量:确保训练数据的准确性和多样性,以避免数据泄露和污染问题。
  • 应用场景拓展:积极探索医疗LLMs在更多实际场景中的应用可能性,并不断优化和改进。

5. 进一步探索的问题和挑战

  • 模型可解释性:提升医疗LLMs的可解释性,使其决策过程更加透明和可信赖。
  • 跨语言处理:开发能够处理多语种医疗文本的LLMs,以满足全球医疗市场的需求。
  • 隐私和安全:加强医疗LLMs在处理敏感患者信息时的隐私保护和安全措施。

新的技术和投资机会

  • 模型优化技术:如更高效的注意力机制、更复杂的模型架构等,将催生新的算法和工具开发需求。
  • 医疗信息化解决方案:基于医疗LLMs的智能化医疗信息系统将成为新的投资热点。
  • 垂直行业应用:针对特定医疗领域(如肿瘤学、心脏病学等)的定制化LLMs应用将带来广阔的商业前景。

6. 不足及缺失

  • 评估全面性:尽管MedOdyssey基准包含了多种类型的任务和数据集,但仍可能未覆盖医疗领域的所有重要方面。
  • 开源模型表现不佳:论文中的实验结果主要基于商业LLMs,开源模型的表现普遍较差。这可能部分归因于开源模型在训练数据和模型架构上的限制,但也可能反映了评估过程中的某些偏见或不足。
  • 隐私和伦理问题:论文在处理敏感医疗数据时未详细说明隐私保护措施和伦理考量,这在实际应用中是一个重要问题。

需要进一步验证和存疑的方面

  • MIC原则的适用性:该原则通过固定字符到标记的转换比例来确保不同LLMs观察到相同的上下文。然而,在实际应用中,不同LLMs的内部机制和训练数据可能存在较大差异,该原则的适用性和有效性需要进一步验证。
  • 反直觉推理的有效性:反直觉推理问题旨在评估LLMs的推理能力,但其设计是否合理、是否能够真正反映LLMs的推理水平仍有待商榷。此外,不同LLMs对反直觉推理问题的响应可能受到其训练数据和模型架构的显著影响。

7. 学到的内容和启发

  • 认识到医疗领域AI技术的重要性:医疗LLMs在处理长文本方面的能力对于提升医疗服务质量具有重要意义。作为非技术背景的读者,应关注该领域的发展动态和潜在应用。
  • 理解评估基准的重要性:科学的评估基准是推动技术发展的重要保障。通过了解MedOdyssey基准的构建过程和评估方法,可以更好地理解如何评估LLMs的性能和优劣。
  • 关注数据质量和隐私保护:在处理敏感医疗数据时,必须高度重视数据质量和隐私保护问题。这不仅是技术挑战,也是伦理和法律要求。

需要补充的背景知识

  • 人工智能基础知识:了解人工智能的基本概念、发展历程和应用领域,有助于更好地理解LLMs的工作原理和应用场景。
  • 医疗信息化现状:了解当前医疗信息化的发展水平和存在问题,可以更好地把握医疗LLMs的潜在应用空间和市场需求。
  • 隐私保护和伦理法规:了解相关隐私保护法律和伦理规范,有助于在推动技术发展的同时保障患者权益和社会福祉。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.