人机协作：实现最精准鉴别诊断的途径

人工智能系统，尤其是大型语言模型（LLM），正越来越多地应用于影响个人乃至整个社会的高风险决策领域。然而，这类应用往往缺乏足够的保障机制来确保其安全性、可靠性和公平性。LLM 固有的缺陷，例如产生幻觉、缺乏常识以及存在偏见，可能源于其自身的局限性，而通过更复杂的架构、更多的数据或更多的人工反馈未必能够完全克服。因此，仅仅依靠 LLM 做出复杂、高风险的决策存在着很大风险。为此，我们提出了一种混合集体智能系统，旨在结合人类经验和 LLM 的海量信息处理能力，以降低决策风险。我们将该系统应用于开放式医学诊断领域，整合了医生做出的 40,762 个鉴别诊断结果和五个最先进的 LLM 对 2,133 个病例的诊断结果。研究表明，医生与 LLM 组成的混合集体在诊断准确率方面优于单独的医生、医生团队、单个 LLM 以及 LLM 集成的结果。这一结论在不同的医学专业和医生经验水平上均成立，体现了人类和 LLM 在诊断过程中形成互补、减少不同类型错误的优势。我们的研究强调了人机协作在提高复杂、开放性领域（如医学诊断）决策准确性方面的巨大潜力。

一、论文的研究目标及问题背景

研究目标

研究目标：论文旨在通过结合人类专家和大型语言模型（LLMs）的优势，提升在开放性问题域（如医疗诊断）中的决策准确性，减少错误，并提出一种混合集体智能系统来实现这一目标。

实际问题及重要性

实际问题：论文关注医疗诊断中的决策准确性问题，特别是诊断错误导致的严重后果。医疗诊断错误在美国每年导致约795,000人死亡和永久性残疾。随着人工智能（AI）技术的发展，特别是LLMs的兴起，其在医疗领域的应用潜力巨大，但LLMs存在幻觉、缺乏常识和偏见等问题，限制了其在实际医疗决策中的单独使用。

问题重要性：提高医疗诊断的准确性，减少人为和AI错误，对于改善全球患者预后至关重要。LLMs虽然在处理自然语言和理解医学知识方面表现出色，但其局限性也明显。如何结合人类专家的经验和LLMs的信息处理能力，成为提升医疗决策质量的关键问题。

二、论文提出的新思路、方法或模型

新思路

论文提出了一种混合集体智能系统，该系统结合人类专家和LLMs的互补优势，通过集体决策提高医疗诊断的准确性。具体而言，系统收集多个医生和多个LLMs的诊断意见，并通过加权聚合算法生成集体诊断结果。

方法与模型

方法：

数据收集：使用Human Dx平台上的真实医疗案例数据，包括医生提供的诊断和五个最先进的LLMs（Anthropic Claude3Opus、Google Gemini Pro1.0、Meta Llama270B、Mistral Large、OpenAI GPT-4）的诊断结果。
诊断标准化：将医生和LLMs的自由文本诊断映射到系统命名法医学临床术语（SNOMED CT）中的唯一概念ID，以实现诊断的可比性。
加权聚合：通过加权多数投票集成（WMVE）方法，根据医生和LLMs在训练集上的表现计算权重，并据此聚合生成集体诊断结果。

模型：

集体智能模型：通过结合多个独立决策者的意见，减少单一决策者的偏见和错误，提高整体决策的准确性。
加权集成算法：根据各决策者的性能动态调整其在集体决策中的权重，确保高性能决策者在结果中的更大影响力。

特点与优势

与单独使用人类专家或LLMs相比，混合集体智能系统具有以下特点和优势：

互补性：人类专家和LLMs在诊断过程中犯不同类型的错误，混合系统能够结合双方的优点，减少整体错误率。
动态加权：通过WMVE方法动态调整权重，使得集体诊断更加准确和可靠。
开放性问题域适用性：该方法不仅适用于医疗诊断，还可以推广到其他需要复杂决策和集体智慧的开放性问题域。

三、实验设计与结果

实验设计

实验设计：

数据划分：采用五折交叉验证方法，将数据集分为五个部分，每次使用其中一部分作为训练集，其余部分作为测试集。
提示工程：针对每个LLMs，设计多种提示（prompt）组合，通过训练集确定最佳提示配置。
性能评估：评估单个LLMs、LLMs集成、人类专家集体以及混合集体智能系统在不同性能指标（如Top-1、Top-3、Top-5准确率和平均倒数排名MRR）下的表现。

实验数据与结果

实验数据：论文使用了Human Dx平台上的2,133个医疗案例和40,762个医生诊断结果。

关键结果：

LLMs集成：与单个LLMs相比，集成多个LLMs显著提高了诊断准确性（如图2所示）。
混合集体智能系统：结合人类专家和LLMs的混合集体智能系统在所有性能指标上均优于单独使用人类专家或LLMs（如图3所示）。
互补性分析：人类专家和LLMs在诊断过程中犯不同类型的错误，混合系统能够通过互补减少整体错误率（如图4所示）。

引用关键数据：

"For top-5 accuracy, the ensemble of all LLMs combined clearly outperformed each LLM individually, and this result held across the five most common medical specialties in our data (cardiology, gastroenterology, pulmonology and respirology, neurology, and infectious diseases; see Extended Data Fig. S2)."

四、论文的贡献、业界影响及应用前景

论文贡献

提出混合集体智能系统：首次提出结合人类专家和LLMs的混合集体智能系统，用于提升医疗诊断的准确性。
实验验证：通过大规模实验验证了混合系统在不同医学领域和专家经验水平下的优越性。
互补性分析：深入分析了人类专家和LLMs在诊断过程中的错误互补性，揭示了混合系统减少错误率的机制。

业界影响

医疗信息化：推动医疗诊断向更智能化、精准化方向发展，提高医疗服务质量和效率。
AI应用拓展：为LLMs在医疗领域的应用提供了新的思路和方法，促进AI技术在医疗行业的广泛应用。
集体智能研究：为集体智能领域的研究提供了新的视角和实验证据，促进该领域的发展。

应用前景与商业机会

智能诊断辅助系统：开发基于混合集体智能系统的智能诊断辅助工具，帮助医生提高诊断准确性。
医疗决策支持系统：构建医疗决策支持系统，集成多种数据源和决策模型，为医生提供全面的决策支持。
健康管理与咨询服务：结合智能诊断和健康监测技术，提供个性化的健康管理和咨询服务。

工程师应关注的方面

数据处理与标准化：关注医疗数据的收集、处理和标准化方法，确保数据的准确性和可比性。
模型集成与优化：研究不同模型（包括LLMs和人类专家）的集成方法，优化集体决策算法。
系统安全与隐私保护：确保智能诊断系统的安全性和患者隐私保护，避免数据泄露和滥用。

五、未来研究方向与挑战

研究方向

更复杂的提示工程：研究更复杂的提示工程技术，进一步提升LLMs的诊断性能。
跨领域应用：探索混合集体智能系统在非医疗领域的应用，如气候变化适应管理、金融风险评估等。
公平性与偏见问题：研究如何在混合系统中减少偏见，确保诊断结果的公平性和公正性。

挑战

数据质量与可用性：获取高质量、多样化的医疗数据是系统性能提升的关键挑战。
模型可解释性：提高混合集体智能系统的可解释性，帮助医生理解诊断结果背后的逻辑和依据。
伦理与法律问题：确保系统的部署符合伦理和法律要求，避免潜在的偏见和歧视问题。

六、论文的不足与存疑之处

不足

生态效度：论文使用的数据来源于Human Dx平台，其生态效度可能有限，难以完全代表真实临床场景。
治疗后果分析：论文未分析不同诊断结果对治疗选择和患者预后的影响。
公平性评估：论文未对系统在不同患者群体中的公平性进行评估。

存疑

系统鲁棒性：混合集体智能系统在面对罕见或复杂病例时的鲁棒性尚需进一步验证。
人类专家参与度：如何确保人类专家在系统中的持续参与和高质量贡献，是系统长期运行的关键问题。
实时性：LLMs的响应时间可能影响系统在紧急医疗场景中的应用。

七、非技术背景读者的启发与补充知识

启发

跨学科合作的重要性：论文展示了跨学科合作（如医学与AI）在解决复杂问题中的巨大潜力。
集体智慧的力量：通过结合多个独立决策者的意见，可以显著提升整体决策的准确性。
AI技术的局限性与解决方案：认识到AI技术的局限性，并通过混合方法（如结合人类专家）来弥补这些局限性。

补充知识

大型语言模型（LLMs）：一种能够处理自然语言任务（如问答、文本生成）的深度学习模型，具有强大的文本理解和生成能力。
系统命名法医学临床术语（SNOMED CT）：一种用于标准化医学概念和术语的编码系统，有助于医疗信息的准确交流和共享。
集体智能：通过集合多个独立决策者的意见来解决问题的一种方法，旨在利用群体的智慧提高决策的准确性。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.