一、论文研究目标、问题及相关研究
1.1 研究目标
1.2 要解决的实际问题
幻觉问题: LLMs在回答医学问题时,经常会生成事实性错误的答案,即产生“幻觉”,这在医疗领域是不能容忍的。这是因为模型缺乏对广泛、复杂的医学知识的整合。 多源异构知识整合: 医疗领域知识来源多样且复杂,包括教科书、临床指南、研究论文、维基百科以及知识图谱等。如何有效地整合这些来源的信息是一个巨大的挑战。 现有方法在源规划上的不足: 现有的检索增强生成(Retrieval-Augmented Generation, RAG)方法通常对所有知识源一视同仁,直接用原始问题检索所有数据源。即使有方法使用一些策略来指导LLMs利用检索源,但仍然无法根据每个知识源的独特属性来构建合适的查询,即存在“源规划”问题。
1.3 是否是一个新问题
1.4 科学假设
1.5 相关研究
医疗领域的检索增强生成(Medical RAG): 这类研究将RAG技术应用于各种医疗任务,如临床决策、预测和医学问答等。例如: "RAG has been successfully applied to a broad spec-trum of medical tasks, including clinical decision-making (Shi et al., 2023; Thompson et al., 2023),clinical prediction (Ye et al., 2021; Naik et al.,2022; Xu et al., 2024), and medical question-answering (QA) (Xiong et al., 2024; Jeong et al.,2024; Wang et al., 2024c; Li et al., 2024b)." 查询构建(Query Construction): 这类研究主要关注如何构建有效的查询语句以提高检索效果,例如: "Some works directly use large language models to enhance the query (Maet al., 2023; Wang et al., 2023b, 2024c; Wu et al.,2024b; Wang et al., 2024a; Chen et al., 2024), and others rely on multiple retrievals and reflection to improve the query quality (Shinn et al., 2023; Hu et al., 2024; Zhao et al., 2024; Liao et al., 2024)." 训练数据构建: 这类研究专注于构造查询相关的训练数据,但现有的方法在信号选择和单源查询方面存在缺陷。 "There are also works that concentrate on con-structing query-related training data. However,the signals they choose for constructing data are each flawed and they all focus on the single-source querying."
1.6 研究归类
1.7 值得关注的研究员
Karan Singhal: 发表了多篇关于LLMs在医学领域应用的文章,包括评估GPT-4在医学挑战问题上的能力。 Xingxuan Li: 研究了如何通过异构数据源的动态知识调整来增强LLMs。 Zhiyong Lu: 参与了MedCPT项目,利用PubMed搜索日志训练transformers模型,用于生物医学信息检索。 Haoyu Wang: 提出了Blendfilter方法,通过查询生成混合和知识过滤来改进RAG。 Yubo Wang: 提出了Query2Doc方法,利用LLMs进行查询扩展。
二、论文提出的新思路、方法和模型
2.1 新思路
将多源知识整合问题形式化为源规划问题:针对不同类型的医学知识源,需要制定不同的查询策略,以最大化检索效果。 "We address this challenge by framing it as a source planning problem, where the task is to formulate context-appropriate queries tai-lored to the attributes of diverse knowledge sources." 构建全面的多源异构医学知识库MedOmniKB:该知识库包含五种不同类型的医学知识源,提供了一个研究源规划问题的平台。 "To address this,we introduce MedOmniKB, a more comprehen-sive and varied knowledge repository than pre-viously available resources (Xiong et al., 2024;Corbeil, 2024; Xu et al., 2024; Lin et al., 2024b)." 提出源规划优化(Source Planning Optimization, SPO)方法:通过探索、评估和学习三个步骤,优化模型的多源规划能力。
2.2 新方法: 源规划优化(SPO)
规划探索(Planning Exploration): 使用一个“专家”LLM (例如Qwen2.5-72B-Instruct-AWQ)为每个知识源生成多个候选查询语句,目标是保证查询的多样性和与知识源的契合度。 "In our approach, we prompt an expert LLM,Qwen2.5-72B-Instruct-AWQ (Qwen Team, 2024),to generate multiple queries for each source. The exploration prompt is guided by two principles: di-versity within a single source and alignment with the characteristics of different sources." 规划评估(Planning Judging): 使用同一个“专家”LLM判断每个候选查询检索到的文档是否支持正确答案,以此将查询标注为“正向”或“负向”。 "Inspired by the recent emergence of LLM-as-a-judge (Li et al., 2024a), we prompt the supe-rior LLM Qwen2.5-72B-Instruct-AWQ to judge whether the documents retrieved by the query sup-port the gold answer." 规划学习(Planning Learning): 利用评估得到的正向和负向查询样本,训练一个较小的LLM (例如Qwen2.5-7B)。首先进行监督微调(Supervised Fine-tuning, SFT),然后使用**直接偏好优化(Direct Preference Optimization, DPO)**进一步对齐模型和知识源。 "Based on the judgements, we employ Me to per-form supervised fine-tuning (SFT) first, followed by direct preference optimisation (DPO) to further align with the multi-aspect knowledge base."
2.3 新模型: MedOmniKB
Book: 医学教科书,提供基础医学知识。 Guideline: 临床实践指南,帮助医生进行诊断和治疗。 Research: 医学研究论文,提供前沿的医学知识。 Wiki: 维基百科,提供通用医学知识。 Graph: 知识图谱(采用UMLS),提供医学概念和关系。
"MedOmniKB includes five representative types of sources “Book,” “Guideline,” “Research,” “Wiki,”and "Graph"-offering both depth and breadth of information."
2.4 与之前方法的比较
显式的源规划: 之前的RAG方法通常将所有知识源同等对待,而SPO方法则根据不同知识源的特点,生成不同的查询语句,从而更有效地利用多源知识。 全面的知识库: MedOmniKB相比现有的医学知识库更加全面和多样,涵盖了结构化和非结构化数据,为研究多源知识整合提供了更好的平台。 有效的训练方法: SPO方法通过规划探索、评估和学习三个步骤,特别是利用LLM作为评估者,可以生成高质量的训练数据,从而提升模型的源规划能力。实验结果表明,经过SPO训练的小模型在检索规划方面甚至可以超越更大的模型。 "Extensive experiments show that SPO substantially boosts multi-source planning capability compared to existing techniques. Notably, our optimised small model outperforms substantially larger mod-els (with 10 times the parameters) in retrieval plan- ning."
三、实验设计、数据和结果
3.1 实验设计
No Retrieval: 不使用外部知识,直接用LLM回答问题。 Original Question: 使用原始问题进行检索。 Query2Doc: 使用LLM根据原始问题生成伪文档,再进行检索。 Prompting: 直接提示LLM为每个知识源生成查询。 Reflexion: 通过迭代的方式,让LLM基于反馈改进查询。 SeRTS: 结合Reflexion和树搜索的方法。 Trainable Planning: 使用下游任务的表现来评估查询的质量,并训练模型。 RaFe Planning: 使用重排序分数来评估查询的质量,并训练模型。 SPO Planning: 本文提出的方法。
3.2 实验数据
MedQA: 美国医学执照考试(USMLE)的多项选择题。 MedMCQA: 印度医学入学考试的多项选择题。 MMLU-Med: 涵盖六个医学相关任务的多项选择题。 PubMedQA: 基于PubMed摘要的问答数据集。 BioASQ: 生物医学问答竞赛数据集。
3.3 实验结果
SPO方法在所有数据集和所有“阅读器”模型上均取得了最佳表现。例如,在使用Qwen2.5-7B作为“阅读器”时,SPO方法在五个数据集上的平均准确率为77.03%,比第二名的方法(SeRTS)高出4.42%。 "SPO Planning (Ours) 77.30 72.00 84.11 61.20 90.54 77.03" 经过SPO训练的小模型(Qwen2.5-7B)在检索规划方面甚至超过了更大的模型(Qwen2.5-72B)。这表明SPO方法可以有效地提升模型的源规划能力。 消融实验表明,每个知识源都对最终表现有贡献,其中“Book”和“Research”的贡献最大。 "Overall, every retrieval source enhances the ability to answer medical questions to varying degrees,with the "Book” and “Research” sources providing the most significant improvements." 对训练数据量和类别的分析表明,SPO方法对数据量和类别的变化具有较好的鲁棒性。
3.4 实验结果是否支持假设
SPO方法在五个数据集上的平均准确率比不进行检索(No Retrieval)分别提高了16.36%(Qwen2.5-7B), 8.60%(Llama3.1-8B)和17.66%(Mistral0.3-7B)。这表明,利用外部知识可以显著提升LLMs在医学问答任务中的表现。 SPO方法显著优于其他基于规划的方法(Prompting, Reflexion, SeRTS, Trainable Planning, RaFe Planning)。例如,在使用Qwen2.5-7B作为“阅读器”时,SPO方法比Prompting高4.70%,比Reflexion高5.12%,比SeRTS高4.42%,比Trainable Planning高4.06%,比RaFe Planning高4.63%。这表明,SPO方法可以更有效地进行源规划,从而更好地利用多源知识。
四、论文贡献、影响、应用场景和对工程师的启示
4.1 论文贡献
提出了医疗领域多源知识整合的源规划问题,并将其形式化,为未来的研究指明了方向。 构建了一个全面的多源异构医学知识库MedOmniKB,为研究多源知识整合和源规划问题提供了一个有价值的平台。 提出了一种新颖的源规划优化(SPO)方法,通过规划探索、评估和学习三个步骤,有效地提升了LLMs在多源医学知识检索中的表现。 通过在五个医学问答数据集上的实验,验证了SPO方法的有效性,并证明了经过SPO训练的小模型在检索规划方面甚至可以超越更大的模型。
4.2 业界影响
推动RAG技术在医疗领域的应用: 通过解决LLMs在处理复杂医学问题时的“幻觉”问题,提高其准确性和可靠性,为LLMs在医疗领域的应用扫清障碍。 促进多源异构知识整合的研究: MedOmniKB的构建和SPO方法的提出,将激励更多研究者关注多源异构知识整合的问题,推动相关技术的发展。 为构建可信赖的医疗AI系统提供技术支持: 通过提高LLMs的知识水平和推理能力,有助于构建更加可信赖的医疗AI系统,辅助医生进行临床决策,提高医疗服务的质量和效率。
4.3 潜在应用场景和商业机会
智能医学问答系统: 可以利用SPO方法构建智能医学问答系统,为患者提供准确、可靠的医学信息和建议。 辅助诊断和治疗: 可以将SPO方法应用于辅助诊断和治疗系统,帮助医生更全面地了解患者的病情,制定更优的治疗方案。 医学教育和培训: 可以利用MedOmniKB和SPO方法开发医学教育和培训工具,帮助医学生和医生更高效地学习和掌握医学知识。 药物研发: 可以利用SPO方法从大量的医学文献中挖掘信息,加速药物研发的进程。 个性化医疗: 可以结合患者的个人信息和多源医学知识,利用SPO方法为患者提供个性化的医疗建议和服务。
4.4 对工程师的启示
关注多源异构知识整合: 在开发AI系统时,特别是面向医疗等知识密集型领域时,需要重视多源异构知识的整合,不能局限于单一类型的数据源。 探索更有效的知识表示和检索方法: 传统的基于关键词的检索方法已经难以满足复杂知识检索的需求,需要探索更有效的知识表示和检索方法,例如知识图谱、语义搜索等。 利用LLMs的强大能力: LLMs在自然语言理解和生成方面具有强大的能力,可以将其作为构建知识密集型AI系统的有力工具,例如本论文中利用LLM进行规划探索和评估。 重视模型的可解释性和可靠性: 在医疗等关键领域,AI系统的可解释性和可靠性至关重要,需要采取措施提高模型的可信度,例如本论文中通过检索外部知识来减少LLMs的“幻觉”问题。 持续学习和跟进最新研究: AI领域发展迅速,作为工程师需要持续学习,关注最新的研究成果,并将其应用于实际的工程项目中。
五、未来研究方向、挑战、新技术和投资机会
5.1 值得探索的问题和挑战
更细粒度的源规划: 目前的SPO方法主要针对不同类型的知识源进行规划,未来可以探索更细粒度的规划,例如针对同一类型知识源中的不同子领域或不同文档进行规划。 动态源规划: 目前的SPO方法主要基于静态的知识库进行规划,未来可以考虑引入动态知识,例如实时的临床数据,实现动态的源规划。 多模态知识整合: 目前的MedOmniKB主要包含文本和结构化知识,未来可以考虑引入其他模态的知识,例如医学影像,实现多模态知识的整合。 知识库的构建和维护: 如何高效地构建和维护大规模、高质量的医学知识库,是一个重要的挑战。 用户建模: 目前的SPO方法主要关注问题本身,未来可以考虑引入用户建模,例如根据用户的专业水平和需求,提供个性化的知识检索和生成服务。 "Moreover, the exploration and judging steps in our SPO approach incur a relatively large retrieval and inference cost." "In our opinion, the accurate judgement of each query is essential for the model to learn source planning. We alleviate the cost problems by multi-process parallelism, op-timised retrieval framework based on Qdrant, batch inference and vLLM acceleration (Kwon et al.,2023)." 成本和效率: 目前SPO方法的规划探索和评估步骤计算成本较高,需要进一步优化以提高效率。论文中提到了通过并行计算, 基于Qdrant的检索框架优化以及vLLM加速来降低成本。
5.2 新技术和投资机会
更先进的多源知识检索和整合技术: 例如基于图神经网络的知识检索,基于LLMs的知识融合等,这些技术可以应用于构建智能医学助手、临床决策支持系统等产品。 自动化的知识库构建和维护工具: 例如基于LLMs的知识抽取,知识图谱自动构建和更新等,这些工具可以大大降低构建和维护医学知识库的成本。 个性化的医疗AI平台: 例如基于用户画像和多源知识的个性化健康管理,智能导诊等,这些平台可以提供更加精准和高效的医疗服务。 面向医疗领域的垂直LLMs: 例如针对特定疾病或医学领域的LLMs,这些模型可以提供更加专业和深入的知识服务。 多模态医学AI系统: 例如结合医学影像、文本和结构化知识的智能诊断系统,这些系统可以提高诊断的准确性和效率。
六、论文的不足和需要进一步验证的地方
6.1 论文的不足
知识库的完备性: 论文中提到MedOmniKB目前还不完整,缺少一些特定场景的医学资源,例如DrugBank和MIMIC-IV-Note。 "There are some limitations in our work. First, our constructed MedOmniKB is incomplete. Some scenario-specific medical resources, such as Drag-Bank (Wishart et al., 2008), and MIMIC-IV-Note (Johnson et al., 2023) are not included." 评估指标的局限性: 论文主要使用准确率作为评估指标,这对于某些类型的医学问答任务可能不够全面,例如开放式问题,需要更复杂的评估指标,如ROUGE, BLEU等。 缺乏与其他类型模型比较: 论文主要比较了不同的RAG方法,但没有与其他类型的模型进行比较,例如基于知识图谱的模型,基于规则的模型等。 实际应用场景的验证: 论文主要在公开的医学问答数据集上进行了实验,还需要在实际的应用场景中,例如真实的临床环境中,验证SPO方法的有效性和鲁棒性。
6.2 需要进一步验证和存疑的地方
SPO方法的可扩展性: 论文中使用的“专家”LLM是Qwen2.5-72B-Instruct-AWQ,这是一个非常大的模型,在实际应用中可能难以部署。需要进一步验证SPO方法在使用较小模型时的效果。 规划评估的可靠性: SPO方法使用LLM作为评估者,判断检索到的文档是否支持正确答案。这依赖于LLM本身的知识水平和推理能力,其可靠性需要进一步验证。 负采样策略的有效性: SPO方法在规划学习阶段使用了负采样,但论文没有详细说明负采样的策略,例如如何选择合适的负样本,其有效性需要进一步验证。 超参数的影响: SPO方法涉及多个超参数,例如每个知识源的候选查询数量,SFT和DPO的学习率等,这些超参数对最终效果的影响需要进一步分析。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment