论文信息
标题 (Title):A Knowledge-driven Adaptive Collaboration of LLMs for Enhancing Medical Decision-making
作者 (Authors):Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng, Yanyuan Qiao, Imran Razzak, Yutong Xie
发表年份 (Year):2025
原文链接 (URL):
https://github.com/XiaoXiao-Woo/KAMAC
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):在复杂的医疗决策中,多学科团队(MDTs)协作至关重要
。受此启发,近期研究开始使用多智能体协作(MAC)框架来模拟专家团队,但这些框架因其静态、预设的角色分配而存在局限性,阻碍了系统的自适应能力和动态知识整合 。本研究旨在提出一个名为KAMAC的知识驱动自适应多智能体协作框架,使LLM智能体能够根据不断演变的诊断情境,动态地组建和扩充专家团队。 方法 (Methods):KAMAC框架从一个或多个初始专家智能体开始,通过进行一轮“知识驱动的讨论”来识别现有知识的空白,并根据需要招募额外的专家来填补这些空白
。最终,由一个“主持人”智能体审查更新后的所有专家意见,并作出最终决策 。该框架在两个真实世界的医疗基准数据集(MedQA和Progn-VQA)上进行了实验评估。 结果 (Results):实验结果表明,KAMAC在性能上显著优于单智能体和现有的高级多智能体方法,尤其是在需要动态、跨专业知识的复杂临床场景(如癌症预后)中
。例如,在MedQA数据集上,KAMAC的准确率达到88.14%,优于先进的MDAgents框架(87.74%) 。同时,KAMAC在计算成本和效率上也更具优势,平均每案例招募的专家数量远少于静态多智能体方法 。 结论 (Conclusion):KAMAC框架证明,通过让智能体主动评估自身局限性并在需要时请求额外专业知识,可以克服传统多智能体设置的僵化性,从而更真实地模拟现实世界的临床工作流程
。这种基于知识感知的自适应、反馈驱动的交互模式,是提升决策质量的关键。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:在医疗实践中,复杂的决策过程往往需要多学科团队(MDTs)的参与才能满足患者的需求
。近年来,大型语言模型(LLM)凭借其强大的推理和知识整合能力,在模拟临床医生角色和支持医疗决策方面显示出巨大潜力 。基于LLM的多智能体协作(MAC)已成为一个重要范式,旨在通过集体审议来增强单个智能体的推理性能 。 核心研究问题 (RQs):尽管现有的MAC框架通过模拟MDT提升了决策能力,但它们普遍存在一个核心缺陷:智能体的角色是静态的、预先分配的
。这种僵化的设定限制了系统在协作过程中的适应性。当讨论深入,新的、更细分的知识需求出现时(例如,放射科医生和心脏病医生各自坚持自己的专业视角),系统无法动态引入新的专家来弥合分歧或填补知识空白,导致协作最终退化为孤立观点的并列,而非融合的共识 。因此,核心问题是:如何设计一个能够在协作过程中动态适应、根据浮现的知识需求主动演化团队构成的多智能体框架,从而更有效地解决复杂的医疗问题? 核心研究问题是否是一个新的问题? 是的。论文明确指出,即使是较新的“问题驱动”或“观察驱动”的MAC方法,其专家库仍然是静态或在讨论开始前就已优化的,无法在多轮互动中进行调整
。本文提出的**“知识驱动”范式是新颖的,其核心创新在于团队的构成不是在协作前一次性确定的,而是在协作中根据识别出的“知识空白”(Knowledge Gaps)进行动态扩展**。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究的主要观点和不足:
LLM-Based MAC:早期的工作验证了通过角色扮演和多轮讨论模拟MDT,可以取得比单个LLM更好的性能
。 改进的专家招募策略:近期研究试图提升MAC的灵活性。例如,“问题驱动”的MAC(如MDAgents)根据问题的复杂度(简单、中等、困难)来预设不同的专家团队
。“观察驱动”的MAC则在协作开始前,通过分析任务和角色特征来优化专家选择 。
研究缺口 (Gap):本文明确指出的研究缺口是:所有现存的MAC方法,其专家团队一旦确定,在整个多轮讨论过程中都是固定不变的
。这意味着,当讨论中出现意料之外的细分问题或知识盲区时,系统缺乏在讨论中途(mid-discussion)招募新专家的机制。这种“静态团队”的设定,阻碍了系统进行真正符合场景需求的、动态的协作,尤其是在复杂多变的临床环境中。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:本文旨在提出并评估一个名为KAMAC的知识驱动自适应多智能体协作框架
。该框架的核心目标是,通过在协作讨论中动态识别知识空白并扩展专家团队,来提升医疗决策的准确性和适应性 。 核心假设/命题:一个能够在讨论过程中动态检测知识空白并按需招募新专家的多智能体框架,将在解决复杂临床问题时,比采用静态团队(无论是预设的还是预优化的)的框架表现得更准确、更高效。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究属于系统构建与实证评估(System Development and Evaluation)。研究者首先设计并实现了一个新颖的协作框架,然后通过在标准基准上进行定量实验来验证其性能。
具体研究思路/模型 (KAMAC框架):
论文中提到的解决方案之关键:其关键在于一个包含动态团队扩展机制的三阶段协作流程,该流程通过一系列精心设计的提示(Prompts)来引导。
初始咨询 (Initial Consultation):给定一个临床问题,系统首先招募一个或多个初始专家(例如,仅招募一名最相关的专家)
。这些专家独立分析问题并给出初步意见,形成讨论的基础 。 知识驱动的协作讨论 (Knowledge-driven Collaborative Discussion):这是框架的核心创新。在每一轮讨论中,所有在场专家交换意见并互相评议
。在本轮结束时,智能体会被一个特定的提示(KG检测提示P_4)引导,以自我评估当前团队的集体专业知识是否足以解决问题 。如果检测到“知识空白”(Knowledge Gap, KG),系统会触发专家再招募流程,根据提示(P_5)引入新的、具有所需专业知识的智能体加入讨论 。新加入的专家会接收到之前的讨论历史作为上下文,然后提供自己的意见 。这个过程可以迭代进行,直到达成共识或达到最大轮数限制 。 最终决策 (Decision Making):最后,一个“主持人”智能体被调用,它会综合所有专家的最终意见,并通过多数投票机制产生最终答案
。
跟之前的方法相比有什么特点和优势?
自适应性 (Adaptive):与所有其他MAC框架的静态团队不同,KAMAC的团队是动态演化的,能够根据问题的具体进展和复杂性进行调整,更接近真实世界的临床实践
。 效率 (Efficient):通过从一个小的初始团队开始,只在必要时招募新专家,KAMAC避免了在问题初期就组建一个庞大而可能冗余的团队,从而节省了计算资源和成本
。 可扩展性 (Scalable):团队规模可以根据问题的复杂性灵活扩展,使其能够应对需要广泛跨学科知识的复杂临床场景
。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:实验使用了两个公开的医疗问答数据集的测试集。
MedQA:一个基于美国执业医师资格考试的问答数据集,使用了其全部1273个测试样本
。 Progn-VQA:一个用于头颈癌预后预测的视觉问答数据集,包含CT影像和结构化的患者信息,使用了其全部750个测试样本
。
样本:实验中评估的智能体基于GPT-4.1-mini和DeepSeek-R1两个大型语言模型
。
2.3. 操作化与测量 (Operationalization & Measurement)
模型与设置:实验主要使用GPT-4.1-mini作为所有智能体的基础模型,以确保输出的确定性
。最大讨论轮数R设为3,初始专家数量默认设为1 。 评估指标:使用了四种标准的分类指标来评估性能:准确率 (Acc)、精确率 (Prec)、特异性 (Spec) 和召回率 (Recall)
。 对比方法:KAMAC与多种基线进行了比较,包括:(1) 单智能体;(2) 单智能体 + 思维链 (CoT);(3) 多数投票 (静态5专家团队);(4) 共识 (静态5专家团队);(5) MDAgents (一种先进的、基于问题驱动招募的MAC框架)
。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
KAMAC性能全面领先:在MedQA和Progn-VQA两个数据集上,KAMAC的性能在所有四个评估指标上均优于所有对比的单智能体和多智能体方法
。 动态协作优于静态协作:与采用固定5专家团队的“多数投票”和“共识”方法,以及采用问题驱动招募的MDAgents相比,KAMAC均取得了更好的结果,证明了其动态知识驱动招募策略的优越性
。 框架具有良好的泛化能力:当将基础模型从GPT-4.1-mini更换为DeepSeek-R1时,KAMAC相比于单智能体基线的性能提升依然显著,表明该框架的设计思想可以推广到不同的LLM模型上
。 初始专家数量影响效率和效果:实验发现,从一个初始专家开始的配置性能最佳
。这表明,一个小的初始团队有助于更精确地识别知识空白和进行更有针对性的专家招募,而从一个较大的团队(如5个专家)开始可能会引入不相关的早期观点,增加冗余和噪音 。 KAMAC在成本效益上表现出色:相比静态多智能体方法和MDAgents,KAMAC平均每案例招募的专家数量更少(例如在MedQA上为1.28个,而MDAgents为2.41个,静态方法为5个),从而显著降低了API调用次数、推理时间和总成本,实现了更好的可扩展性和成本效益
。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图表1:多智能体协作策略对比图 (Figure 1)
展示内容:该图通过流程图的形式,直观地对比了三种MAC策略:(a) 问题驱动,(b) 观察驱动,和 (c) 本文提出的知识驱动。
揭示的关系:此图的核心在于揭示了专家招募环节的位置。在前两种策略中,“专家招募”是一个在主协作循环(MAC)之外的一次性动作。而在KAMAC的知识驱动策略中,“专家招募”被包含在了多轮讨论的循环内部,这形象地展示了其动态、自适应的核心创新。
图表2:主要实验结果对比表 (Table 1)
展示内容:该表格详细列出了KAMAC及多种基线方法在MedQA和Progn-VQA两个数据集上的Acc, Prec, Spec, Recall四个指标的得分及平均分。
揭示的关系:表格数据为KAMAC的优越性提供了决定性证据。在更复杂的Progn-VQA数据集上,KAMAC的平均分(78.31)显著高于所有其他方法,包括最强的竞争对手MDAgents(76.44)
。这表明,在需要多源信息(临床文本+影像)和跨学科知识的复杂任务中,KAMAC的动态协作能力优势尤为突出。
图表3:计算成本分析表 (Table 5)
展示内容:该表格对比了不同方法在MedQA数据集上的性能指标、平均专家使用数量、单案例推理时间、API调用次数和成本。
揭示的关系:此表清晰地展示了KAMAC的效率优势。与性能最接近的MDAgents相比,KAMAC在准确率略高的情况下,平均专家使用数量减少了47%(1.28 vs 2.41),API调用减少了24%,总成本降低了21%
。这证明了动态招募不仅效果好,而且资源利用效率更高。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
结果的意义:本研究的结果表明,对于复杂的AI协作任务,一个智能的协作流程可能比一个庞大的初始团队更为重要。KAMAC的成功证明,赋予智能体识别自身知识局限并主动寻求帮助的能力,是构建更强大、更鲁棒的AI系统的关键一步。它将多智能体协作从“静态的角色扮演”提升到了“动态的团队问题解决”层面。
回答研究问题:是的,研究结果有力地回答了引言中的核心问题。通过设计一个能够在讨论中动态调整团队构成的框架,KAMAC有效地解决了静态角色分配带来的适应性不足问题,并在性能和效率上超越了现有方法。
4.2. 理论贡献 (Theoretical Contributions)
对现有理论的贡献:
提出了一种新的“知识驱动”MAC范式:本文在多智能体系统领域提出了一个重要的概念创新。它将基于“知识空白”的动态团队形成作为一个核心设计原则,超越了先前基于问题或任务特征的静态分配模式。
提供了一个可行的实现框架:KAMAC不仅是一个理论概念,更是一个包含具体流程、算法和提示工程的完整框架,为其他研究者实现类似的自适应协作系统提供了具体参考。
对业界的影响:这项工作为构建下一代的企业级AI决策支持系统提供了宝贵的思路。在金融风控、法律咨询、工程设计等同样需要多领域专家协作的行业,KAMAC所倡导的“从小团队开始,按需引入专家”的模式,比为每个问题都预设一个庞大团队的方案,显然更具实践价值和经济效益。
4.3. 实践启示 (Practical Implications)
对AI系统开发者:在设计多智能体系统时,应重点考虑如何让智能体具备“元认知”能力,即能够评估自身的知识边界。与其追求构建一个“全知全能”的智能体,不如设计一个懂得“何时求助”以及“向谁求助”的协作网络。
对临床决策支持工具:未来的临床AI工具可以借鉴KAMAC的模式,根据初步诊断或检验结果,动态地为医生推荐需要咨询的其他科室专家,从而实现更智能、更个性化的多学科会诊辅助。
4.4. 局限性与未来研究 (Limitations & Future Research)
研究的局限性(作者明确指出):
模态局限性:当前框架主要处理文本和影像输入,未来可以整合基因组学或纵向临床数据等更多模态
。 未进行领域微调:研究使用了通用的LLM。虽然性能已经很强,但通过领域微调可能会进一步提升准确性,但这会带来显著的计算开销和数据需求挑战
。
未来研究方向(作者明确指出):未来的工作包括对智能体的不确定性进行建模,以及整合“医生在环路中”(clinician-in-the-loop)的反馈,以更好地支持在医疗环境中的实时部署
。
5. 结论 (Conclusion)
本文提出了KAMAC,一个知识驱动的自适应多智能体协作框架,为基于LLM的医疗决策带来了结构化的动态推理能力
6. 核心参考文献 (Core References)
Kim, Y., et al. (2024). Mdagents: An adaptive collaboration of llms for medical decision-making.
(本文进行性能比较的核心高级基线方法。)
Tang, X., et al. (2023). Medagents: Large language models as collaborators for zero-shot medical reasoning.
(一篇开创性的、使用LLM智能体模拟MDT进行医疗推理的工作。)
Chen, K., et al. (2025). Mdteamgpt: A self-evolving llm-based multi-agent framework for multi-disciplinary team medical consultation.
(另一篇相关的、带有领导者智能体和RAG的MAC框架研究。)
Jin, D., et al. (2021). What disease does this patient have? a large-scale open domain question answering dataset from medical exams.
(本文使用的核心评估基准之一,MedQA。)
Welch, ML., et al. (2023). Computed tomography images from large head and neck cohort (radcure). The Cancer Imaging Archive.
(本文使用的另一个核心评估基准,Progn-VQA。)
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment