基于非结构化数据的 多步知识检索与推理

大型语言模型(LLM)和生成式人工智能的出现为自然语言处理应用带来了革命性的变化。然而,在医疗、法律和金融等领域,高风险决策任务对准确性、全面性和逻辑一致性有着极高的要求,而单纯依靠 LLM 或检索增强生成(RAG)方法往往难以满足这些需求。 为此,Elemental Cognition (EC) 公司开发了一个神经符号人工智能平台,旨在解决上述问题。该平台将用于知识提取和对齐的微调 LLM 与强大的符号推理引擎相结合,实现逻辑推理、规划和交互式约束求解等功能。 作为该平台的应用实例,我们开发了一个名为 Cora 的协作研究助理,旨在帮助用户在高风险领域执行复杂的研究和发现任务。本文深入探讨了此类领域中固有的多步推理挑战,分析了现有基于 LLM 方法的局限性,并展示了 Cora 的神经符号方法如何有效应对这些挑战。此外,本文还介绍了 Cora 的系统架构、知识提取和形式推理的关键算法,并通过初步评估结果展示了 Cora 相较于其他知名 LLM 和 RAG 方法的性能优势。

1. 研究目标

论文《Multi-step Knowledge Retrieval and Inference over Unstructured Data》的研究目标在于开发一个神经符号AI平台,以解决高风险决策领域(如医疗、法律和金融)中复杂知识检索和推理的问题。该平台结合了精细调优的大语言模型(LLMs)用于知识提取和对齐,以及强大的符号推理引擎用于逻辑推理、规划和交互式约束求解。

实际问题

论文旨在解决以下实际问题:

  • 高精度与逻辑性:纯LLM或检索增强生成(RAG)方法在高风险决策领域难以提供精确、全面和逻辑一致的答案。
  • 复杂假设验证:需要在多个数据集中检索和拼接相关信息,评估复杂的研究假设。
  • 证据完整性与反证寻找:系统不仅需要找到支持证据,还需找到反驳证据,以避免确认偏差。
  • 因果推理:需要对多个相互依赖的因果因素和链接进行因果和逻辑推理。

问题的新颖性

这是一个新问题,因为在以往的研究中,LLMs主要被用于单一或简单任务的文本生成和理解,而在需要多步骤推理和高度精确性的高风险决策领域,LLMs的局限性变得尤为明显。

对产业发展的重要意义

该问题的解决对于产业发展具有重要意义,尤其是在需要高度精准和可靠决策的领域,如药物研发、宏观经济分析和法律案件分析。通过自动化复杂的知识检索和推理过程,可以显著提高决策效率和质量,减少人为错误和资源浪费。

2. 新的思路与方法

论文提出了以下新的思路和方法:

  • 神经符号AI平台:结合LLMs进行知识提取和符号推理引擎进行逻辑推理。
  • 多步骤图搜索算法:用于在文本中识别相关因果链接,并动态构建全面的因果图。
  • 认知表示语言(Cogent):用于形式化定义概念理论,并支持基于Answer Set Programming的逻辑推理。

解决方案的关键

  • 知识提取:使用精细调校的LLMs和自动化知识提取框架LUMEN,从大规模非结构化文本中提取领域概念和关系。
  • 符号推理:基于Cogent语言和Cogent推理引擎,进行因果、演绎、溯因和非单调推理,支持多目标约束优化。
  • 交互式推理:支持用户实时交互,填补知识空白,解决歧义,更新模型。

特点与优势

  • 精确性与全面性:通过结合符号推理和LLMs,提供精确且全面的答案。
  • 逻辑性:支持复杂的因果推理和逻辑一致性检查。
  • 透明性与可解释性:生成的答案附有详细的逻辑证明和证据引用,提高了系统的透明度和可解释性。

3. 实验设计

论文在医疗领域设计了初步评估实验,收集了25个基于专家真实问题的查询,并使用以下系统进行评估:

  • GPT4-Turbo(纯LLM)
  • Perplexity(基于Web搜索的RAG)
  • Elicit(基于Semantic Scholar的科研RAG)
  • Cora(神经符号AI平台)

实验数据和结果

实验数据包括四个评估指标:

  • Claim Density:平均每个答案中的主张数量,Cora表现最佳。
  • Citation Density:平均每个主张的真实引用数,Cora和Elicit表现较好。
  • Source Hallucination Rate:虚构引用的百分比,GPT4-Turbo表现最差。
  • Citation RateJustification RateRelevance Rate:Cora在所有这些指标上均表现最佳,证明其答案的可靠性和相关性。

支持科学假设

实验结果很好地支持了论文提出的科学假设,即神经符号AI平台在解决多步骤因果推理问题上,相比纯LLM和RAG方法,具有更高的精确性、全面性和可验证性。

4. 论文贡献

  • 技术贡献:提出了神经符号AI平台,结合LLMs和符号推理,解决了高风险决策领域的复杂推理问题。
  • 应用贡献:展示了在医疗和宏观经济分析领域的应用潜力,提高了决策质量和效率。

业界影响

  • 提升决策质量:在需要高度精确和逻辑一致的决策领域,如医疗、金融和法律,将显著提升决策质量。
  • 自动化复杂任务:自动化知识检索和推理过程,减少人力成本和时间消耗。

应用场景与商业机会

  • 药物研发:加速药物靶标识别和临床前研究。
  • 宏观经济分析:提供精确的宏观经济预测和投资建议。
  • 法律案件分析:自动化证据检索和逻辑推理,辅助法律决策。

工程师关注方面

  • 技术实现:关注LLMs与符号推理引擎的结合方式,以及知识提取和推理算法的实现细节。
  • 应用场景拓展:探索更多高风险决策领域的应用,如网络安全、环境保护等。
  • 系统优化:关注系统性能优化和用户体验提升,如提高推理速度、增加用户交互友好性等。

5. 值得探索的问题和挑战

  • 大规模数据集的处理:如何高效处理大规模非结构化数据集,提取高质量知识。
  • 实时推理能力:提高系统的实时推理能力,满足更多即时决策需求。
  • 跨领域应用:将现有方法拓展到更多高风险决策领域,如网络安全、地缘政治等。
  • 深度融合技术:进一步探索LLMs与符号推理的深度融合方式,提高整体性能。

新的技术和投资机会

  • 先进知识提取技术:如基于图神经网络的知识提取技术,可能带来更高的提取准确率和效率。
  • 高性能符号推理引擎:开发更高效、更强大的符号推理引擎,满足复杂推理需求。
  • 领域定制化解决方案:针对特定领域开发定制化解决方案,提供更具针对性的服务。
  • 综合AI平台:集成多种AI技术,构建综合AI平台,提供一站式解决方案。

6. 存在的不足与缺失

  • 数据集局限性:初步评估实验仅基于医疗领域的数据集,缺乏跨领域的验证。
  • 系统性能评估:未对系统性能(如推理速度、资源消耗等)进行全面评估。
  • 用户反馈:缺乏实际用户的反馈和意见,无法全面了解系统在实际应用中的表现。

需要进一步验证和存疑的方面

  • 跨领域适用性:需要验证该方法在不同领域(如法律、金融等)的适用性。
  • 长期效果评估:长期跟踪评估该方法在实际应用中的长期效果,确保系统的稳定性和可靠性。
  • 伦理与隐私:探讨该方法在涉及敏感数据(如医疗记录、金融信息等)时的伦理和隐私问题。

7. 学习与启发

  • AI技术的重要性:了解AI技术在高风险决策领域中的关键作用,特别是LLMs和符号推理的结合应用。
  • 创新思维:认识到跨领域融合创新的重要性,如何结合不同技术解决复杂问题。
  • 实际应用潜力:了解AI技术在医疗、金融和法律等领域的潜在应用,以及可能带来的商业机会。

需要补充的背景知识

  • 大语言模型(LLMs):了解LLMs的基本原理、训练方法和应用场景。
  • 符号推理:了解符号推理的基本概念、推理方法和应用领域。
  • 知识图谱:了解知识图谱的构建方法、存储技术和查询语言,以及其在AI领域的应用。
  • 因果推理:了解因果推理的基本原理、方法和应用场景,特别是在复杂系统中的应用。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

LLM 服务医生:利用医学大型语言模型辅助医生,而非取代医生

大型语言模型(LLM)近年来取得了显著进展,并在医疗领域展现出巨大潜力,例如为患者提供医疗建议和诊断信息等。然而,由于缺乏专业医学知识,LLM 生成的信息可能存在错误,容易误导患者,甚至引发严重后果。为了解决这一问题,我们致力于将 LLM 打造成能够辅助医生的得力助手,而非取代医生。 本研究首先开展了两阶段“灵感-反馈”调查,以深入了解医生对医疗助手的实际需求。在此基础上,我们构建了一个名为 DoctorFLAN 的中文医学数据集,涵盖 22 类任务和 27 个专科的 9.2 万条问答样本,旨在为医生的全流程工作提供支持。 此外,我们还构建了包含 550 个单轮问答的 DoctorFLAN-test 测试集和包含 74 个多轮对话的 DotaBench 测试集,用于评估 LLMs 在面向医生的场景下的表现。评估结果表明,现有的开源模型要真正成为合格的“医疗助理”仍面临诸多挑战,而 DoctorFLAN 数据集能够有效提升模型性能。本研究构建的以医生为中心的数据集和基准测试体系,是对现有以患者为中心的研究工作的补充,将有力推动医学 LLMs 的研究进展。

1. 研究目标


论文的研究目标是重新定位大型语言模型(LLMs)在医疗领域的应用,将其从直接为患者提供医疗咨询的角色转变为辅助医生的助手角色。这一转变旨在提高医疗咨询的准确性,减少患者因接收错误建议而产生的风险。

实际问题
目前,尽管LLMs在医疗领域取得了一定进展,但患者由于缺乏专业知识,容易被LLMs生成的错误信息误导,从而引发严重的医疗问题。此外,LLMs还存在模型幻觉等问题,限制了其在实际医疗场景中的应用。

是否是新问题
这个问题并非全新,但论文提出了一种新的解决方案,即开发辅助医生的LLMs,而不是直接面向患者的LLMs,这在一定程度上解决了现有LLMs在医疗领域应用中的局限性。

重要意义
该研究对于产业发展具有重要意义。通过辅助医生,LLMs可以显著提高医疗工作的效率,同时减少人为错误。此外,这还有助于推动医疗信息化的进一步发展,促进医疗资源的合理分配和利用。

2. 新思路与方法

  • 辅助医生的LLMs:论文提出将LLMs重新定位为医生的助手,而不是直接提供医疗咨询给患者。
  • DoctorFLAN数据集:构建了一个包含92K问答样本的中文医疗数据集,覆盖医生工作流程中的22项任务和27个专科领域。
  • DotaBench基准测试:设计了DotaBench,用于评估LLMs在医生辅助场景中的多轮对话能力。

解决方案的关键

  • 全面的数据集:DoctorFLAN数据集覆盖了医生日常工作的各个方面,确保LLMs能够全面辅助医生。
  • 多轮对话评估:DotaBench通过模拟实际医疗场景中的多轮对话,评估LLMs的实用性和准确性。

特点和优势

  • 针对性强:与直接面向患者的LLMs相比,辅助医生的LLMs更加符合医疗领域的实际需求。
  • 全面覆盖:DoctorFLAN数据集涵盖了医生工作流程中的各个环节,为LLMs的训练提供了丰富的数据支持。
  • 实用性高:DotaBench基准测试通过模拟实际医疗场景,评估LLMs的实用性,有助于推动LLMs在医疗领域的实际应用。

3. 实验设计

  • 数据集构建:构建了DoctorFLAN数据集,包含91,880个样本,覆盖22项任务和27个专科领域。
  • 基准测试:设计了DoctorFLAN-test和DotaBench两个基准测试,分别用于评估LLMs在单轮和多轮对话场景中的表现。
  • 模型训练:在DoctorFLAN数据集上训练了DotaGPT模型,并与其他基线模型进行对比实验。

实验数据和结果

  • 自动评估:使用GPT-4对模型进行评估,结果显示DotaGPT模型在DoctorFLAN-test和DotaBench上的表现均优于其他基线模型。
  • 人工评估:邀请了6位医疗专家对模型在DoctorFLAN-test上的表现进行人工评估,结果显示DotaGPT模型在准确性和实用性方面均表现出色。

支持科学假设
实验数据和结果很好地支持了论文的科学假设,即辅助医生的LLMs在医疗领域的应用中具有显著的优势和潜力。

4. 论文贡献

  • 提出新范式:首次提出将LLMs定位为医生的助手,而非直接面向患者的医疗顾问。
  • 构建数据集与基准测试:构建了全面的DoctorFLAN数据集和DotaBench基准测试,为LLMs在医疗领域的应用提供了重要的数据支持和评估标准。
  • 模型验证:通过实验验证了辅助医生LLMs的有效性,为实际应用提供了有力的支持。

业界影响

  • 推动医疗信息化:辅助医生的LLMs有望显著提高医疗工作的效率和准确性,推动医疗信息化的发展。
  • 促进医疗资源合理配置:通过提高医生的工作效率,辅助医生的LLMs有助于缓解医疗资源紧张的问题。

潜在应用场景和商业机会

  • 智能辅助诊断:LLMs可以辅助医生进行初步诊断和病情评估,提高诊断效率和准确性。
  • 患者教育与管理:LLMs可以为患者提供术前教育、健康指导等服务,提升患者满意度和管理效率。

工程师应关注的方面

  • 数据集构建与处理:了解如何构建高质量的医疗数据集,并进行有效的数据处理和清洗。
  • 模型训练与优化:掌握LLMs的训练方法和优化技巧,提高模型的性能和实用性。
  • 实际应用场景探索:关注LLMs在医疗领域的实际应用场景,探索潜在的商业机会。

5. 值得探索的问题与挑战

  • 模型准确性提升:如何进一步提高辅助医生LLMs的准确性和可靠性,减少误诊和漏诊的风险。
  • 多语言支持:目前DoctorFLAN数据集仅支持中文,未来需要扩展到其他语言,以满足不同国家和地区的需求。
  • 隐私与安全:在医疗领域应用LLMs时,如何确保患者数据的隐私和安全,避免数据泄露和滥用。

新技术与投资机会

  • 跨模态医疗AI:结合图像、语音等多模态数据,开发更加全面的医疗AI系统,提高诊断和治疗的精准度。
  • 个性化医疗方案:利用LLMs分析患者的个体差异,提供个性化的医疗建议和治疗方案,提高治疗效果和患者满意度。
  • 医疗数据共享平台:构建安全、高效的医疗数据共享平台,促进医疗数据的流通和利用,为医疗AI的发展提供有力的数据支持。

6. 不足与缺失

  • 数据集局限性:目前DoctorFLAN数据集仅支持中文,且数据来源相对单一,可能存在一定的偏见和局限性。
  • 模型泛化能力:虽然DotaGPT模型在特定任务上表现出色,但其泛化能力仍需进一步验证和评估。
  • 伦理与法律问题:论文对LLMs在医疗领域应用中的伦理和法律问题讨论较少,这些问题是实际应用中不可忽视的重要因素。

需要进一步验证和存疑的

  • 长期效果评估:LLMs在医疗领域的应用效果需要长期跟踪和评估,以确保其安全性和有效性。
  • 跨领域合作:LLMs在医疗领域的应用需要跨学科合作,如何促进不同领域专家之间的有效沟通和合作是一个值得探讨的问题。

7. 学到的内容与启发

  • 关注领域趋势:了解LLMs在医疗领域的应用趋势和发展方向,把握未来产业的发展机遇。
  • 重视数据支持:认识到高质量数据集对于AI模型训练和应用的重要性。
  • 跨学科合作:意识到跨学科合作在推动技术创新和实际应用中的关键作用。

需要补充的背景知识

  • 大型语言模型(LLMs):了解LLMs的基本原理、训练方法和应用场景,以便更好地理解其在医疗领域的应用。
  • 医疗信息化:掌握医疗信息化的基本概念和发展历程,了解医疗领域对信息技术的需求和挑战。
  • 医疗伦理与法律:了解医疗领域中的伦理和法律问题,以便在LLMs的应用中遵循相关规范和标准。

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.