论文信息
标题 (Title):MedKGent: A Large Language Model Agent Framework for Constructing Temporally Evolving Medical Knowledge Graph
作者 (Authors):Duzhen Zhang, Zixiao Wang, Zhong-Zhi Li, Yahan Yu, Shuncheng Jia, Jiahua Dong, Haotian Xu, Xing Wu, Yingying Zhang, Tielin Zhang, Jie Yang, Xiuying Chen, and Le Song
发表年份 (Year):2025
原文链接 (URL):
https://arxiv.org/abs/2508.12393v2
结构化摘要 (Structured Abstract)
背景/目标 (Background/Objective):医学文献的爆炸式增长给知识的结构化和整合带来了巨大挑战。现有知识图谱 (KG) 构建方法或依赖于泛化能力有限的监督式模型,或简单聚合大语言模型 (LLM) 的输出,普遍将医学文献视为静态语料库,忽视了知识演化的时间动态性和不确定性。本研究旨在解决这些局限,提出一个名为 MedKGent 的 LLM 代理框架,用于构建一个能够反映知识演化的时序医学知识图谱。
方法 (Methods):研究框架 MedKGent 利用了1975年至2023年间发表的超过1000万篇 PubMed 文献摘要,并将其组织成精细的每日时间序列。
该框架通过两个基于 Qwen2.5-32B-Instruct 模型的专用代理(Extractor Agent 和 Constructor Agent),以逐日增量的方式构建 KG。 Extractor Agent 负责识别知识三元组并通过采样估计法分配置信度分数。 Constructor Agent 则根据置信度分数和时间戳,增量式地将筛选后的三元组整合进时序演化的图谱中,同时加强共识知识并解决冲突。 结果 (Results):研究成功构建了一个包含156,275个实体和2,971,384个关系三元组的医学知识图谱,是迄今为止由 LLM 构建的最大规模的医学 KG 之一。
经过两个先进 LLM(GPT-4.1, DeepSeek-v3)和三位领域专家的评估,其准确率接近90%。 在七个医学问答基准测试中,使用该 KG 进行检索增强生成 (RAG) 显著提升了五个主流 LLM 的性能。 结论 (Conclusion):MedKGent 框架被证明是一个可扩展、时间敏感且值得信赖的医学知识表示基础。它不仅能高质量地构建动态演化的医学知识图谱,还能在临床决策支持、研究综合和 AI 驱动的科学发现(如药物重定向)等下游应用中发挥重要价值。
1. 引言 (Introduction)
1.1. 研究背景与核心问题 (Research Background & Problem Statement)
研究背景:在宏观层面,研究处于生物医学信息学领域。该领域面临的核心挑战是如何从海量、快速增长且非结构化的医学文献中高效地组织、合成和提取可操作的知识。
知识图谱 (KG) 作为一种将自由文本转化为结构化知识的有力工具,能够支持机器推理和大规模知识整合,在药物重定向、临床决策支持等任务中显示出巨大潜力。 核心研究问题 (RQs):本文旨在回答以下核心问题:
如何设计一个自动化框架,利用大语言模型 (LLM) 从大规模医学文献中构建一个能够反映知识随时间演化的动态知识图谱?
如何在该框架中有效处理知识的不确定性(分配置信度)和演化过程中的冲突?
这样构建的时序知识图谱在准确性和下游应用(如医学问答和药物发现)中的实际效用如何?
核心研究问题是否是一个新的问题? 是。虽然利用 LLM 构建 KG 并非全新概念,但现有方法大多将文献视为静态集合,忽略了医学知识随时间演进的动态特性(如新发现的出现、旧知识的修正或强化)。
本文首次系统性地提出了一个构建“时序演化”医学 KG 的 LLM 代理框架,这是一个针对现有研究空白提出的新问题和解决方案。
1.2. 文献综述与研究缺口 (Literature Review & Research Gap)
现有研究:
传统方法:依赖于多阶段信息抽取流水线,包括基于专家规则的方法和基于机器学习/深度学习的监督方法。前者难以扩展,后者虽性能有所提升,但泛化能力差,严重依赖大规模标注数据和固定的知识模式 (schema),难以适应新出现的关系类型。
LLM-based 方法:利用 LLM 强大的零样本 (zero-shot) 信息抽取能力,通过提示工程 (prompt engineering) 灵活地处理不同关系类型,减少了对标注数据和固定模式的依赖,展现了更好的扩展性和灵活性。
研究缺口 (Gap):当前基于 LLM 的 KG 构建方法存在两个核心缺陷:
缺乏时间维度:它们通常将所有文献视为一个静态语料库,一次性提取和聚合所有知识,无法捕捉到医学知识的演化过程,例如一个发现何时首次出现、如何被后续研究证实或反驳。
缺乏不确定性建模:大多数方法没有为提取的知识分配置信度分数,这使得在面对文献中相互矛盾的信息时,系统难以进行有效裁决和整合,从而影响了 KG 的一致性和可信度。
1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)
研究目标:本文的核心目标是设计、实现并验证一个名为 MedKGent 的新型 LLM 代理框架,用以自动构建一个大规模、高质量、且能够反映时间演化的医学知识图谱。
核心假设/命题:
一个由 Extractor 和 Constructor 两个代理组成的 LLM 框架,能够从按时间序列组织的文献中增量式地构建一个动态演化的医学 KG。
通过采样和多轮推理,可以为 LLM 提取的知识三元组分配可靠的置信度分数,用于过滤低质量信息和指导知识的整合。
所构建的时序 KG 具有高准确性,并且在作为外部知识源增强 LLM 在复杂医学问答任务中的表现时,具有显著的实用价值。
该 KG 的时序和置信度信息可用于支持更高级的推理任务,如基于文献的药物重定向预测。
2. 研究设计与方法 (Methodology)
2.1. 研究范式与方法论 (Research Paradigm & Methodology)
研究范式:本研究属于定量研究,其产出是一个大规模的结构化数据资产(知识图谱),并通过定量指标(准确率、任务性能提升)对其质量和效用进行评估。
方法论:研究采用了一种创新的 LLM 代理框架 (LLM Agent Framework) 方法,名为 MedKGent。该框架包含两个协同工作的代理:
Extractor Agent (提取代理):负责从每日新增的文献摘要中识别实体(借助 PubTator3 工具)和它们之间的关系。它通过多次采样推理为每个提取的关系三元组生成一个初始置信度分数。
Constructor Agent (构建代理):负责将 Extractor 产出的高置信度三元组增量式地整合到 KG 中。它通过一个定义的更新规则来强化重复出现的知识(提升置信度),并利用 LLM 进行推理来解决新旧知识之间的冲突。
论文中提到的解决方案之关键是什么? 解决方案的关键在于其**“时序演化”和“基于置信度的增量式构建”**机制。它不是一次性处理所有文献,而是模拟知识的自然生长过程,逐日处理文献,并利用置信度分数来动态地更新和维护 KG 的一致性与可靠性。
跟之前的方法相比有什么特点和优势?
时序感知 (Temporal Awareness):与将文献视为静态集合的传统方法不同,MedKGent 捕捉了知识的出现、演变和强化的过程,保留了宝贵的时间信息。
动态与可扩展性 (Dynamic & Extensible):增量式构建使其能轻松地将未来的新文献整合进来,保持 KG 的时效性。
置信度驱动 (Confidence-Driven):引入了置信度分数机制,能有效过滤噪声、强化共识、解决冲突,从而构建一个更可靠、更一致的知识库。
模式灵活性 (Schema Flexibility):继承了 LLM 的优势,可以通过修改提示轻松扩展新的关系类型,无需像监督模型那样重新标注和训练。
2.2. 数据来源与样本 (Data Source & Sample)
数据来源:数据来源于 PubMed 数据库的公开文献摘要。
样本:研究团队收集了超过2000万篇 PubMed 摘要。经过严格的质量控制,包括根据摘要长度(保留100-300词)和发表年份进行筛选,最终确定了一个包含 10,014,314 篇摘要的数据集,时间跨度为 1975年1月1日至2023年12月31日。
这些摘要被组织成一个精细的每日时间序列,以支持增量式构建。
2.3. 操作化与测量 (Operationalization & Measurement)
实体识别与标准化:使用 NCBI 的 PubTator3 工具识别摘要中的六类生物医学实体(基因、疾病、化学物质等),并将其标准化为唯一的标识符。这确保了实体的一致性。
关系提取:通过向 Qwen2.5-32B-Instruct 模型提供包含摘要和已识别实体的提示 (Prompt) 来提取12种预定义的关系(如
Treat
,Cause
,Associate
)。置信度测量 (Confidence Score):采用基于采样的置信度估计方法。对于每个摘要,Extractor Agent 并行进行50次推理,一个三元组在所有推理结果中出现的频率被用作其初始置信度分数(得分低于0.6的被过滤)。
知识融合与冲突解决:当新的三元组进入 KG 时:
如果是新知识,直接插入。
如果是重复知识,则通过公式s_new=1−(1−s_old)times(1−s_incoming) 来增强其置信度。
如果与现有知识冲突(相同实体对,不同关系),则调用 LLM 进行裁决,选择更合适的关系予以保留或替换。
3. 结果与发现 (Results & Findings)
3.1. 主要发现概述 (Overview of Key Findings)
KG 构建成功:成功构建了一个大规模医学知识图谱,包含 156,275个 实体和 2,971,384个 关系三元组。其中,基因和化学物质是数量最多的实体类型,“关联 (Associate)” 是最普遍的关系类型。
高质量与高置信度:KG 中的三元组普遍具有很高的置信度,其中38.3%的得分达到了0.95,反映了知识在文献中的高频重复性。
对提取三元组的质量评估显示,由 GPT-4.1 和 DeepSeek-v3 评估的有效率分别为85.44%和88.10%,三位人类专家的评估结果也超过86%,且评估者之间表现出“实质性”的一致性 (Cohen's kappa > 0.6)。 下游任务性能显著提升:在七个不同的医学问答基准数据集上,将该 KG 用于检索增强生成 (RAG),能够持续且显著地提升五个主流 LLM(包括 GPT-4-turbo 和 DeepSeek-v3)的回答准确率。在需要深度临床推理的任务(如 MedQA-US)上,性能提升尤为明显(最高提升8.6个百分点)。
药物重定向潜力:案例研究表明,利用 KG 中的时序和置信度信息,可以通过因果推理路径(例如,药物
Negative Correlate
基因Positive Correlate
疾病)来发现新的药物-疾病治疗关系。研究成功地“预测”了托珠单抗 (tocilizumab) 对 COVID-19 的治疗作用,而这一预测仅基于该疗法被正式报道之前的文献。
3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)
图 2:知识图谱的结构统计与可视化 (Structural Characterization of the Knowledge Graph)
图表内容:该图展示了 KG 的节点类型分布(图2a)、关系类型分布(图2b)、置信度分数分布(图2c)以及一个以 COVID-19 为中心的子图示例(图2d)。
揭示的关系/趋势:数据显示,基因 (57.6%) 和化学物质 (33.6%) 是最主要的实体类型。
“关联 (Associate)” (47.7%)、“负相关 (Negative Correlate)” (26.1%) 和 “正相关 (Positive Correlate)” (19.9%) 是最主要的三种关系。 置信度分布呈现出明显的右偏,绝大多数三元组(38.3%)的置信度高达0.95,证明了 KG 的可靠性。 子图示例清晰地展示了节点和关系的属性,如标识符、时间戳、PubMed ID 来源等,体现了 KG 的信息丰富度和可追溯性。
图 3:提取关系三元组的质量评估 (Quality Assessment of Extracted Relationship Triples)
图表内容:该图展示了 LLM(GPT-4.1, DeepSeek-v3)自动评估的有效率(图3a, 3b)、人类专家手动评估的有效率(图3c),以及两种 LLM 相对于人类专家的评估表现(精确率、召回率、F1分数)(图3d-f)和所有评估者之间的配对 Cohen's Kappa 一致性系数(图3g)。
揭示的关系/趋势:无论是自动评估还是手动评估,关系三元组的有效率(准确率)都非常高,普遍接近或超过 90%。
LLM 作为评估工具的表现与人类专家高度一致,F1分数约为95%。 所有评估者之间的 Kappa 系数大多超过0.6,表明评估结果具有很强的可信度和一致性。 这有力地证明了 Extractor Agent 生成的三元组质量非常高。
图 4:在医学问答中的下游应用评估 (Evaluating Downstream Utility in Medical Question Answering)
图表内容:该图通过雷达图展示了五个不同的 LLM 在七个医学问答数据集上,使用 RAG(w/ RAG)和不使用 RAG(w/o RAG)两种条件下的准确率表现。
揭示的关系/趋势:最核心的发现是,在所有测试的数据集和 LLM 组合中,使用 MedKGent 进行 RAG 始终优于不使用 RAG 的基线模型。
这表明 KG 作为一个外部知识库,能够为 LLM 提供准确、相关的上下文信息,从而增强其推理能力和事实准确性,证明了 KG 的巨大实用价值。
4. 讨论 (Discussion)
4.1. 结果的深度解读 (In-depth Interpretation of Results)
结果解读:研究发现表明,MedKGent 框架成功地解决了现有 LLM-based KG 构建方法中缺乏时间维度和不确定性建模的核心问题。接近90%的高准确率验证了该框架生成知识的可靠性。在下游问答任务中的一致性性能提升,证明了该 KG 不仅是一个静态的数据集合,更是一个能被 AI 系统有效利用的功能性知识库,能够增强其在专业领域的推理能力。
回答研究问题:是的,这些发现系统地回答了引言中提出的研究问题。
研究成功设计并实现了一个能够构建时序演化 KG 的 LLM 代理框架。
通过采样估计和 LLM 仲裁,框架有效处理了知识的不确定性和冲突。
评估结果证实了 KG 的高准确性和在下游应用中的显著效用。
4.2. 理论贡献 (Theoretical Contributions)
对现有理论的贡献:本研究的核心理论贡献在于提出了一个构建动态演化知识图谱的新范式。它超越了将知识提取视为一次性、静态任务的传统观念,引入了时间维度和置信度演化的概念。这为如何利用 LLM 建模和表示随时间变化的知识领域(如科学研究、新闻动态等)提供了一个新的理论框架和一套可行的技术方案。它将 KG 从一个静态的“知识快照”转变为一个动态的“知识生命周期记录器”。
论文的研究成果将给业界带来什么影响? 对于生物医学研究和AI医疗行业,这项成果提供了一个强大的基础设施。研究人员和临床医生可以利用这个 KG 来追踪特定疾病、基因或药物研究的演化历史,快速综合最新证据。对于 AI 公司,这个 KG 可以直接作为高质量的外部知识源,集成到他们的医疗大模型或临床决策支持系统中,以提高其产品的准确性和可靠性,并降低模型“幻觉”的风险。此外,其在药物重定向方面的潜力也为制药公司提供了一种低成本、数据驱动的候选药物筛选方法。
4.3. 实践启示 (Practical Implications)
对临床决策支持:医生或AI辅助诊断系统可以通过查询 KG,快速获取关于特定病症或疗法的最新、高置信度的循证信息,并了解该知识的来源和发展脉络。
对医学研究者:研究者可以利用 KG 进行文献综述,发现不同生物实体间未被充分探索的关联,或者像案例研究中那样,生成新的、可供实验验证的科学假设(如药物重定向)。
对政策制定者:可以分析特定公共卫生问题(如 COVID-19)相关知识的演化速度和趋势,为科研资金的分配和公共卫生政策的制定提供数据支持。
4.4. 局限性与未来研究 (Limitations & Future Research)
局限性:
数据源单一:目前仅依赖 PubMed 摘要,未来可扩展至全文、临床试验注册记录或电子健康记录 (EHRs) 以增强全面性和临床相关性。
LLM 固有风险:知识提取过程仍可能受 LLM“幻觉”的影响,即生成看似合理但事实不正确的信息。
知识更新滞后:LLM 的知识截止日期可能使其无法反映最新的科学发现。
未来研究:
多模态数据融合:将 KG 扩展到其他数据来源,如临床数据。
优化置信度评分:采用更复杂的模型(如贝叶斯方法)来更精细地量化知识的不确定性。
模型更新机制:MedKGent 的模型无关设计允许未来方便地替换为更先进的 LLM,以持续提升性能。
跨领域应用:该框架的灵活架构使其有潜力被扩展到生物医学以外的其他知识快速演化的领域。
5. 结论 (Conclusion)
本文提出了 MedKGent,一个创新的、基于 LLM 代理的框架,用于从大规模医学文献中自动构建一个时序演化的知识图谱。该框架通过模拟知识的逐日生长过程,并结合置信度评分机制来处理不确定性和冲突,成功构建了一个高质量、动态且可追溯的医学知识库。全面的评估证明了其高准确性和在增强下游 AI 应用(如医学问答和药物发现)方面的巨大价值。MedKGent 不仅是对现有知识图谱构建方法的重要改进,也为在快速发展的科学领域中进行知识表示和管理提供了一个可扩展、可靠且具有前瞻性的解决方案。
6. 核心参考文献 (Core References)
[1] Hogan, A., Blomqvist, E., Cochez, M., et al. (2021). Knowledge graphs. ACM Computing Surveys (Csur), 54(4), 1-37.
这篇综述系统性地定义了知识图谱的概念、技术和应用,是理解本研究基础架构的背景文献。
[2] Zhang, Y., Pan, F., Sui, X., et al. (2023). Constructing the largest-scale biomedical knowledge graph using all PubMed articles and its application in automated knowledge discovery. Cancer Research, 83(7_Supplement), 5366-5366.
这篇文献代表了利用所有 PubMed 文章构建大规模生物医学 KG 的前沿尝试,是本文进行比较和超越的一个重要基准。
[3] OpenAI. (2023). GPT-4 Technical Report.
该报告详细介绍了 GPT-4 的能力,是理解本文所依赖的 LLM 技术基础的关键文献,代表了驱动本文方法论的核心技术。
[4] Wang, X., Wei, J., Schuurmans, D., et al. (2022). Self-Consistency Improves Chain of Thought Reasoning in Language Models.
本文提出的“自洽性”原则是 MedKGent 中“基于采样的置信度估计”方法的理论基础,即通过多次生成和投票来提高结果的可靠性。
[5] Xiong, G., Jin, Q., Lu, Z., & Zhang, A. (2024). Benchmarking retrieval-augmented generation for medicine. Findings of the Association for Computational Linguistics: ACL 2024, 6233-6251.
这篇文献是评估本文 KG 下游应用价值的重要参考,它为医学领域的 RAG 任务提供了基准和评估方法。
–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.
No comments:
Post a Comment