大型语言模型助力加速临床证据合成

让 AI 自动进行医学发现是许多人的梦想。为实现这一目标,我们可以首先构建一个能够理解临床研究并整合文献中临床证据的 AI 模型。 目前,临床证据的整合主要依赖于对临床试验的系统评价和对医学文献的回顾性分析。然而,医学出版物的快速增长给高效识别、总结和更新证据带来了挑战。为此,我们开发了 TrialMind,这是一个基于生成式 AI 的医学系统评价流程,涵盖研究检索、筛选和数据提取等阶段。TrialMind 利用大型语言模型(LLM)驱动各个流程,并结合人工专家监督以最大程度地减少错误。 为方便评估,我们还创建了一个名为 TrialReviewBench 的基准数据集,其中包含来自 25 篇荟萃分析论文的 870 项经过标注的临床研究,涵盖多种医学治疗手段。结果表明,TrialMind 显著提升了文献综述效率,在超过 2000 万篇 PubMed 文献库中检索研究的召回率高达 0.897-1.000,在筛选环节的性能也优于传统的基于语言模型嵌入的方法(召回率@20 为 0.227-0.246,而传统方法仅为 0.000-0.102)。此外,TrialMind 在结果提取方面的准确率达到 0.65-0.84,超过了直接使用 GPT-4 的效果。我们还通过森林图对 TrialMind 生成的临床证据整合结果进行了验证,结果表明八位人工标注者在 62.5%-100% 的案例中更偏好 TrialMind 的结果,而非 GPT-4 的结果。 我们的研究表明,像 TrialMind 这样基于 LLM 的方法能够实现可靠、高质量的临床证据合成,从而提高临床研究效率。

1. 研究目标

论文《Accelerating Clinical Evidence Synthesis with Large Language Models》的研究目标是开发一个基于大型语言模型(LLMs)的自动化医疗证据综合系统,名为TrialMind。该系统旨在帮助医学研究人员从海量的医学文献中高效检索、筛选和提取关键临床证据,从而加速系统评价(systematic reviews)的过程。

解决的实际问题

问题背景:传统系统评价过程耗时长、成本高,且随着医学文献的快速增长,现有方法难以高效处理大量新发表的研究成果。这导致系统评价变得耗时费力,且难以保持时效性。

具体问题:如何利用人工智能技术,特别是大型语言模型,自动化完成文献检索、筛选、数据提取和证据综合等步骤,从而提高系统评价的效率和准确性。

是否是新问题

这个问题并非全新,但使用LLMs来解决这一问题的方法相对较新。LLMs在自然语言处理领域的快速发展,为医疗证据综合带来了新的解决方案。

对产业发展的重要意义

  • 提高效率:自动化流程可显著缩短系统评价的时间,降低人力成本。
  • 增强时效性:快速更新系统评价,确保临床决策的及时性和准确性。
  • 促进药物研发:加速从文献中提炼关键证据,有助于新药的研发和评估。

2. 新的思路、方法或模型

  • TrialMind系统:一个基于LLMs的自动化医疗证据综合系统,包含文献检索、筛选、数据提取和证据综合四个主要步骤。
  • PICO元素引导:利用PICO(患者、干预、对照、结局)元素生成查询关键词,构建布尔查询语句,从医学数据库中检索相关文献。
  • 检索增强生成(RAG)和链式思考(CoT):结合外部知识库和逐步推理,提高LLMs生成查询语句和评估研究资格的准确性。
  • 交互式人工监督:在每个步骤中引入人工监督,确保输出的准确性和可靠性。

解决方案的关键

  • 多步骤任务分解:将复杂的系统评价过程分解为多个可管理的任务,通过LLMs和人工监督协作完成。
  • 集成外部知识:利用检索增强生成技术,结合PubMed等外部数据库,提高LLMs的生成质量。
  • 链式思考推理:通过逐步推理过程,解决复杂问题和减少错误。

特点和优势

  • 高效性:自动化流程显著提高了系统评价的效率。
  • 准确性:结合人工监督和外部知识库,提高了数据提取和证据综合的准确性。
  • 灵活性:允许用户编辑和调整生成的查询和资格标准,满足不同研究需求。

3. 实验设计

  • 文献检索实验:从PubMed数据库中检索相关文献,评估TrialMind在召回率(Recall)上的表现。
  • 文献筛选实验:利用生成的资格标准对检索到的文献进行筛选,评估Recall@20和Recall@50指标。
  • 数据提取实验:从研究文献中提取关键信息,评估提取的准确性。
  • 结果提取和证据综合实验:提取临床结果并生成森林图,通过人类评估验证结果的质量。

实验数据和结果

  • 文献检索:TrialMind在所有25个综述中的平均召回率为0.921,显著高于GPT-4(0.079)和人类基线(0.230)。
  • 文献筛选:TrialMind在Recall@20和Recall@50指标上表现优异,相比MPNet和MedCPT等基线方法有明显提升。
  • 数据提取:在多个主题上的准确性达到0.72-0.83,表现稳健。
  • 结果提取和证据综合:人类评估显示TrialMind生成的森林图质量优于GPT-4基线,赢得率为62.5%-100%。

支持科学假设

实验数据和结果充分支持了TrialMind系统能够有效提高医疗证据综合过程的效率和准确性的科学假设。

4.论文贡献

  • 提出了一种基于LLMs的自动化医疗证据综合系统TrialMind。
  • 通过多步骤任务分解和集成外部知识库,显著提高了系统评价的效率和准确性。
  • 创建了一个基准数据集TrialReviewBench,用于评估系统性能。

业界影响

  • 提高效率:自动化流程将显著降低医疗系统评价的成本和时间。
  • 促进创新:加速新药研发,提高临床决策的时效性和准确性。
  • 标准化:推动医疗证据综合过程的标准化和透明化。

潜在应用场景

  • 临床决策支持系统
  • 药物研发与评估
  • 公共卫生政策制定

商业机会

  • 开发基于TrialMind的医疗信息检索和证据综合软件。
  • 提供定制化系统评价服务,满足医疗机构和研究人员的需求。
  • 与制药公司合作,加速药物研发和市场准入。

工程师应关注方面

  • 技术实现:深入了解LLMs的工作原理和应用场景。
  • 数据处理:熟悉大规模文本数据的处理和分析方法。
  • 系统集成:掌握多系统协同工作的技术和方法。

5. 未来探索问题

  • 提高LLMs的准确性和鲁棒性:进一步研究如何优化LLMs在医疗领域的表现。
  • 跨领域知识整合:探索如何将不同领域的知识库整合到医疗证据综合系统中。
  • 实时更新与动态评估:开发能够实时更新和动态评估系统评价结果的工具。

挑战

  • 数据质量问题:医疗文献中的数据质量参差不齐,如何有效提取和利用高质量数据是一个挑战。
  • 隐私和伦理问题:在处理医疗数据时,如何保护患者隐私和遵守伦理规范是重要问题。

新技术和投资机会

  • AI辅助医疗决策系统:结合LLMs和深度学习技术,开发更加智能化的医疗决策支持系统。
  • 医疗大数据平台:构建集成多种数据源的医疗大数据平台,为AI算法提供丰富的训练和验证数据。
  • 跨领域知识图谱:构建跨学科的医疗知识图谱,支持更加全面的医疗证据综合和分析。

6. 不足及缺失

  • 数据集规模有限:TrialReviewBench数据集包含的研究数量有限,可能无法全面反映系统的实际性能。
  • 人类监督成本:尽管引入人工监督可以提高准确性,但也会增加系统应用的成本和时间。
  • 跨语言处理能力:论文主要关注英文文献,未涉及多语言处理能力的验证。

需要进一步验证和存疑的

  • 泛化能力:系统在不同医学领域和复杂研究问题上的泛化能力需要进一步验证。
  • 长期效果评估:系统对临床决策和药物研发的长期效果需要进行跟踪评估。
  • 隐私和伦理风险:系统的隐私保护机制和伦理合规性需要进一步评估和验证。

7. 学到的内容和启发

  • AI在医疗领域的潜力:了解AI技术,特别是LLMs,在医疗证据综合和临床决策中的重要作用。
  • 自动化流程的优势:认识到自动化流程在提高效率和准确性方面的显著优势。
  • 跨学科合作的重要性:医疗证据综合涉及医学、计算机科学和统计学等多个领域,跨学科合作至关重要。

需要补充的背景知识

  • 大型语言模型(LLMs):了解LLMs的基本原理、应用场景和限制。
  • 系统评价(Systematic Reviews):掌握系统评价的基本流程、方法和重要性。
  • 医疗文献数据库:熟悉PubMed等医疗文献数据库的使用方法和检索技巧。
  • 数据科学和统计学:补充数据处理和统计分析的基本知识,以便更好地理解和评估论文中的实验结果


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

基于非结构化数据的 多步知识检索与推理

大型语言模型(LLM)和生成式人工智能的出现为自然语言处理应用带来了革命性的变化。然而,在医疗、法律和金融等领域,高风险决策任务对准确性、全面性和逻辑一致性有着极高的要求,而单纯依靠 LLM 或检索增强生成(RAG)方法往往难以满足这些需求。 为此,Elemental Cognition (EC) 公司开发了一个神经符号人工智能平台,旨在解决上述问题。该平台将用于知识提取和对齐的微调 LLM 与强大的符号推理引擎相结合,实现逻辑推理、规划和交互式约束求解等功能。 作为该平台的应用实例,我们开发了一个名为 Cora 的协作研究助理,旨在帮助用户在高风险领域执行复杂的研究和发现任务。本文深入探讨了此类领域中固有的多步推理挑战,分析了现有基于 LLM 方法的局限性,并展示了 Cora 的神经符号方法如何有效应对这些挑战。此外,本文还介绍了 Cora 的系统架构、知识提取和形式推理的关键算法,并通过初步评估结果展示了 Cora 相较于其他知名 LLM 和 RAG 方法的性能优势。

1. 研究目标

论文《Multi-step Knowledge Retrieval and Inference over Unstructured Data》的研究目标在于开发一个神经符号AI平台,以解决高风险决策领域(如医疗、法律和金融)中复杂知识检索和推理的问题。该平台结合了精细调优的大语言模型(LLMs)用于知识提取和对齐,以及强大的符号推理引擎用于逻辑推理、规划和交互式约束求解。

实际问题

论文旨在解决以下实际问题:

  • 高精度与逻辑性:纯LLM或检索增强生成(RAG)方法在高风险决策领域难以提供精确、全面和逻辑一致的答案。
  • 复杂假设验证:需要在多个数据集中检索和拼接相关信息,评估复杂的研究假设。
  • 证据完整性与反证寻找:系统不仅需要找到支持证据,还需找到反驳证据,以避免确认偏差。
  • 因果推理:需要对多个相互依赖的因果因素和链接进行因果和逻辑推理。

问题的新颖性

这是一个新问题,因为在以往的研究中,LLMs主要被用于单一或简单任务的文本生成和理解,而在需要多步骤推理和高度精确性的高风险决策领域,LLMs的局限性变得尤为明显。

对产业发展的重要意义

该问题的解决对于产业发展具有重要意义,尤其是在需要高度精准和可靠决策的领域,如药物研发、宏观经济分析和法律案件分析。通过自动化复杂的知识检索和推理过程,可以显著提高决策效率和质量,减少人为错误和资源浪费。

2. 新的思路与方法

论文提出了以下新的思路和方法:

  • 神经符号AI平台:结合LLMs进行知识提取和符号推理引擎进行逻辑推理。
  • 多步骤图搜索算法:用于在文本中识别相关因果链接,并动态构建全面的因果图。
  • 认知表示语言(Cogent):用于形式化定义概念理论,并支持基于Answer Set Programming的逻辑推理。

解决方案的关键

  • 知识提取:使用精细调校的LLMs和自动化知识提取框架LUMEN,从大规模非结构化文本中提取领域概念和关系。
  • 符号推理:基于Cogent语言和Cogent推理引擎,进行因果、演绎、溯因和非单调推理,支持多目标约束优化。
  • 交互式推理:支持用户实时交互,填补知识空白,解决歧义,更新模型。

特点与优势

  • 精确性与全面性:通过结合符号推理和LLMs,提供精确且全面的答案。
  • 逻辑性:支持复杂的因果推理和逻辑一致性检查。
  • 透明性与可解释性:生成的答案附有详细的逻辑证明和证据引用,提高了系统的透明度和可解释性。

3. 实验设计

论文在医疗领域设计了初步评估实验,收集了25个基于专家真实问题的查询,并使用以下系统进行评估:

  • GPT4-Turbo(纯LLM)
  • Perplexity(基于Web搜索的RAG)
  • Elicit(基于Semantic Scholar的科研RAG)
  • Cora(神经符号AI平台)

实验数据和结果

实验数据包括四个评估指标:

  • Claim Density:平均每个答案中的主张数量,Cora表现最佳。
  • Citation Density:平均每个主张的真实引用数,Cora和Elicit表现较好。
  • Source Hallucination Rate:虚构引用的百分比,GPT4-Turbo表现最差。
  • Citation RateJustification RateRelevance Rate:Cora在所有这些指标上均表现最佳,证明其答案的可靠性和相关性。

支持科学假设

实验结果很好地支持了论文提出的科学假设,即神经符号AI平台在解决多步骤因果推理问题上,相比纯LLM和RAG方法,具有更高的精确性、全面性和可验证性。

4. 论文贡献

  • 技术贡献:提出了神经符号AI平台,结合LLMs和符号推理,解决了高风险决策领域的复杂推理问题。
  • 应用贡献:展示了在医疗和宏观经济分析领域的应用潜力,提高了决策质量和效率。

业界影响

  • 提升决策质量:在需要高度精确和逻辑一致的决策领域,如医疗、金融和法律,将显著提升决策质量。
  • 自动化复杂任务:自动化知识检索和推理过程,减少人力成本和时间消耗。

应用场景与商业机会

  • 药物研发:加速药物靶标识别和临床前研究。
  • 宏观经济分析:提供精确的宏观经济预测和投资建议。
  • 法律案件分析:自动化证据检索和逻辑推理,辅助法律决策。

工程师关注方面

  • 技术实现:关注LLMs与符号推理引擎的结合方式,以及知识提取和推理算法的实现细节。
  • 应用场景拓展:探索更多高风险决策领域的应用,如网络安全、环境保护等。
  • 系统优化:关注系统性能优化和用户体验提升,如提高推理速度、增加用户交互友好性等。

5. 值得探索的问题和挑战

  • 大规模数据集的处理:如何高效处理大规模非结构化数据集,提取高质量知识。
  • 实时推理能力:提高系统的实时推理能力,满足更多即时决策需求。
  • 跨领域应用:将现有方法拓展到更多高风险决策领域,如网络安全、地缘政治等。
  • 深度融合技术:进一步探索LLMs与符号推理的深度融合方式,提高整体性能。

新的技术和投资机会

  • 先进知识提取技术:如基于图神经网络的知识提取技术,可能带来更高的提取准确率和效率。
  • 高性能符号推理引擎:开发更高效、更强大的符号推理引擎,满足复杂推理需求。
  • 领域定制化解决方案:针对特定领域开发定制化解决方案,提供更具针对性的服务。
  • 综合AI平台:集成多种AI技术,构建综合AI平台,提供一站式解决方案。

6. 存在的不足与缺失

  • 数据集局限性:初步评估实验仅基于医疗领域的数据集,缺乏跨领域的验证。
  • 系统性能评估:未对系统性能(如推理速度、资源消耗等)进行全面评估。
  • 用户反馈:缺乏实际用户的反馈和意见,无法全面了解系统在实际应用中的表现。

需要进一步验证和存疑的方面

  • 跨领域适用性:需要验证该方法在不同领域(如法律、金融等)的适用性。
  • 长期效果评估:长期跟踪评估该方法在实际应用中的长期效果,确保系统的稳定性和可靠性。
  • 伦理与隐私:探讨该方法在涉及敏感数据(如医疗记录、金融信息等)时的伦理和隐私问题。

7. 学习与启发

  • AI技术的重要性:了解AI技术在高风险决策领域中的关键作用,特别是LLMs和符号推理的结合应用。
  • 创新思维:认识到跨领域融合创新的重要性,如何结合不同技术解决复杂问题。
  • 实际应用潜力:了解AI技术在医疗、金融和法律等领域的潜在应用,以及可能带来的商业机会。

需要补充的背景知识

  • 大语言模型(LLMs):了解LLMs的基本原理、训练方法和应用场景。
  • 符号推理:了解符号推理的基本概念、推理方法和应用领域。
  • 知识图谱:了解知识图谱的构建方法、存储技术和查询语言,以及其在AI领域的应用。
  • 因果推理:了解因果推理的基本原理、方法和应用场景,特别是在复杂系统中的应用。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.