OpenTCM:一个由GraphRAG赋能的基于LLM的中医药知识检索和诊断系统

传统中医药(TCM)代表着一个丰富的古代医学知识宝库,在现代医疗保健中继续发挥重要作用。由于中医药文献的复杂性和广度,整合人工智能技术对于其现代化和更广泛的可及性至关重要。然而,这种整合带来了相当大的挑战,包括解释晦涩的古汉语文本以及建模中医药概念之间复杂的语义关系。
本文中,我们开发了OpenTCM,一个基于LLM的系统,它结合了特定领域的中医药知识图谱和基于图的检索增强生成(GraphRAG)。首先,我们在中医药和妇科专家的帮助下,从中医古籍数据库的68本妇科书籍中提取了超过373万字古汉语文本。其次,我们使用定制的提示和面向中文的LLMs,如DeepSeek和Kimi,构建了一个包含超过48,000个实体和152,000个相互关系的综合多关系知识图谱,以确保高保真度的语义理解。最后,我们将OpenTCM与这个知识图谱集成,无需模型微调即可实现高保真度的方剂知识检索和诊断问答。
实验评估表明,我们的提示设计和模型选择显著提高了知识图谱的质量,精度达到98.55%,F1分数达到99.55%。此外,OpenTCM在方剂信息检索中取得了4.5的平均专家评分,在诊断问答任务中取得了3.8的平均专家评分,在真实世界的中医药用例中优于现有最先进的解决方案。

1. 论文的研究目标

1.1 研究目标与实际问题

这篇论文的核心研究目标是开发并评估一个名为OpenTCM的、基于LLM的系统,该系统通过结合领域特定的中医知识图谱(TCM Knowledge Graph)和图谱检索增强生成(GraphRAG)技术,实现高效且准确的中医知识检索和辅助诊断功能,特别是针对古代中医文献。

论文旨在解决以下关键实际问题:

  1. 中医文献的复杂性与可及性: TCM拥有丰富但复杂的古籍文献,这些文献语言晦涩、概念关系错综复杂,现代从业者和AI难以有效解读和利用。
  2. 现有AI方法(特别是LLM)在TCM中的局限性:
    • 直接应用通用LLMs(如ChatGPT, Claude)于TCM面临挑战,包括对古文理解不足、容易产生幻觉(尤其在生成方剂时)、难以捕捉TCM概念(如药材、症状、证候、治法)间的复杂关系。
    • 依赖于在特定数据集上微调(Fine-tuning)通用LLM的方法计算成本高昂,且仍可能受限于训练数据的覆盖范围和质量,并可能产生幻觉。
    • 现有方法大多关注现代医学文献,忽略了构成TCM基础的大量古典文献
    • 缺乏将结构化知识(如知识图谱)与LLM结合应用于TCM的研究。

"Due to the complexity and breadth of the TCM literature, the integration of AI technologies is critical for its modernization and broader accessibility. However, this integration poses considerable challenges, including the interpretation of obscure classical Chinese texts and the modeling of intricate semantic relationships among TCM concepts." "Although recent advances in LLMs have proven to be effective in medical knowledge democratization, the direct application of general-purpose LLMs to TCM still faces significant limitations, such as hallucination in prescription generation and semantic understanding of classical Chinese."

1.2 新问题与科学假设

GraphRAG技术应用于大规模古典中医文献,构建专门的知识图谱,并以此赋能LLM进行零样本(Zero-shot,即无需微调)的知识检索和诊断问答,这是一个具有显著新意的研究方向

论文的核心科学假设是:通过构建一个高质量、覆盖古典中医(特别是妇科)文献的领域知识图谱,并结合GraphRAG技术,可以使LLM在无需微调的情况下,有效克服直接应用LLM或传统微调方法的局限性,实现高保真度、上下文感知的中医知识检索和诊断问答,其性能优于现有方法。

"By eliminating the need for model fine-tuning, OpenTCM leverages retrieval-augmented generation to provide accurate, context-aware responses with minimal computational overhead. Our structured knowledge graph also mitigates hallucination risks and enhances reasoning over complex TCM relationships..."

1.3 相关研究与归类

论文中提到的相关研究主要包括:

  1. 中医知识图谱构建: 利用LLM进行TCM知识图谱构建的研究(如Zhang et al., Duan et al.)。
  2. 中医领域的LLM: 专门为TCM微调或设计的LLM(如BianCang, Lingdan, Qibo, Zhongjing, TCMChat)。
  3. 知识图谱与LLM的结合(GraphRAG): 在通用医学领域应用GraphRAG的研究(如MedGraphRAG)。

这些研究属于人工智能(AI)自然语言处理(NLP)知识工程(Knowledge Engineering)信息检索(Information Retrieval)医疗信息学(Medical Informatics),特别是中医信息化的交叉领域。

1.4 领域内值得关注的研究员

论文作者团队(Jinglin He, Yunqi Guo, Lai Kwan Lam, Waikei Leung, Lixing He, Yuanan Jiang, Chi Chiu Wang, Guoliang Xing, Hongkai Chen)及其所属机构(香港中文大学)是该领域值得关注的力量。此外,他们引用的相关工作作者也值得关注:

  • 进行中医LLM研究的团队(如开发BianCang, Lingdan等模型的团队)。
  • 进行GraphRAG研究的团队(如开发MedGraphRAG的团队)。
  • 早期进行中医知识图谱构建的研究者。

2. 论文提出的新思路、方法和模型

2.1 新思路与关键

论文提出的核心新思路是利用GraphRAG框架,将大规模古典中医知识图谱与LLM相结合,实现无需微调的高效中医知识服务。其关键在于:

  1. 深度挖掘古典文献: 专注于从68本中医妇科古籍中提取超过373万字的原始文本,并由专家审核。
  2. 高质量知识图谱构建:
    • 使用定制化的提示(Customized Prompts)指导LLM进行信息抽取。
    • 采用面向中文和医学领域的LLM(Domain-adapted LLMs,如DeepSeek, Kimi)以确保对古文语义的高保真理解。
    • 构建了一个包含超过48,000个实体(药材、疾病、症状、治法等)和152,000条关系的大规模多关系TCM知识图谱。
  3. GraphRAG的应用: 将构建的知识图谱作为GraphRAG的后端,利用图谱的结构化信息和关系进行检索,为LLM提供高质量、上下文相关的知识,以生成答案。
  4. 避免微调: 整个流程不涉及LLM的微调,降低了计算成本和幻觉风险。

"We propose a TCM knowledge graph construction approach that combines customized prompts with domain-specific LLMs, achieving high-fidelity semantic extraction from classical texts." "We integrate the knowledge graph with GraphRAG to enhance reasoning capabilities of OpenTCM over complex TCM interrelationships while maintaining computational efficiency."

2.2 OpenTCM 系统架构

系统架构如图1所示,主要包含三个部分:

  1. 数据收集与预处理 (Data Collection & Pre-processing):
    • 从“中华医典”数据库中选取68本妇科古籍。
    • 由中医师和妇科专家进行文本的审阅、校对和格式化。
  2. 知识图谱构建 (Knowledge Graph Construction):
    • 输入: 清理后的古籍文本。
    • 工具: 定制化Prompt + 中文领域LLM (DeepSeek, Kimi)。
    • Prompt设计关键点:
      • 角色定义: "TCM Data Processing Assistant"。
      • 任务描述: 抽取书籍章节、方剂(治法)、药材、药材-方剂关系四类信息,并输出为JSON格式。
      • 结构化输出要求: 定义了清晰的JSON表结构。
      • 示例输入输出: 提供样例以指导模型。
    • 输出: 一个包含多种实体和关系(见Table III,如belongs_to_categorytreats_diseaseingredient_use等10种关系)的TCM知识图谱。图2和图3展示了图谱的可视化。
  3. 基于图谱的检索增强生成 (Graph-based Retrieval-Augmented Generation):
    • 核心: GraphRAG技术。
    • 输入: 用户查询(Query)。
    • 检索 (Retrieval): GraphRAG在TCM知识图谱中进行检索。与传统RAG处理非结构化文本不同,GraphRAG利用图谱的结构信息关系进行检索,能够追踪多跳路径(如:症状 -> 证候 -> 治法 -> 药材),查找与查询上下文相关的实体和子图。
    • 生成 (Generation): 将检索到的结构化知识(而非原始文本块)作为上下文信息,输入到LLM(无需微调)中,生成最终的回答。

2.3 与之前方法的比较

  • 相比通用LLM+Prompt: OpenTCM利用结构化的KG和GraphRAG,提供了更准确、上下文更相关的知识,减少了幻觉。
  • 相比微调LLM: OpenTCM避免了昂贵的微调过程,计算效率更高,且不易产生基于训练数据偏差的幻觉。
  • 相比传统KG构建: OpenTCM利用LLM和定制Prompt自动化构建KG,效率可能更高,且能处理语义复杂的古文。
  • 相比传统RAG: GraphRAG利用图结构进行检索,能更好地捕捉概念间的复杂关系,检索到的信息更精准、结构化。
  • 相比MedGraphRAG: OpenTCM专注于TCM领域,特别是古典文献,并构建了专门的TCM知识图谱。

3. 论文的实验验证

3.1 实验设计

论文进行了两类实验:知识图谱构建评估和真实世界应用评估。

  • 知识图谱构建评估 (Sec IV.B):
    • 目标: 评估KG构建的质量。
    • 方法: 从68本书中随机抽取章节,让LLM抽取三元组。随机选择1795个生成的三元组,由5位领域专家进行标注(判断正确/错误),作为评测基准。
    • 对比:
      • 定制Prompt vs. 通用Prompt (使用Kimi模型)。
      • 不同LLM后端 (Kimi, DeepSeek, GPT-4, Claude-2,均使用定制Prompt)。
    • 指标: Precision, Recall, F1-Score, Accuracy (基于专家标注)。
  • 真实世界应用评估 (Sec IV.C):
    • 目标: 评估OpenTCM在实际任务中的表现。
    • 任务:
      1. 药材知识检索 (Ingredient Information Retrieval): 回答关于药材功效、配伍等问题(200个查询)。
      2. 诊断问答 (Diagnostic Question Answering): 根据用户描述的症状提供诊断建议和方剂(200个问题,如图4示例)。
    • 方法:
      • 基准模型: 通用LLM (GPT-4, Claude-2),TCM专用LLM (BianCang, Lingdan)。
      • 评估方式: 5位资深中医专家(平均15年以上经验)对每个系统生成的答案进行打分(1-5分 Likert scale,1分不相关,5分非常相关)。
    • 指标:
      • 平均专家评分 (Mean Expert Score, MES): 衡量答案的相关性和准确性。
      • 准确率 (Accuracy): 专家判断为正确答案的比例。
      • 评分者间一致性 (Inter-Rater Agreement, IRA): 衡量专家评分的可靠性。

3.2 实验数据与结果

  • 知识图谱构建 (Table IV & V):
    • Prompt对比 (Table IV): 定制Prompt显著优于通用Prompt,Kimi模型使用定制Prompt的F1分数达到99.55%,准确率98.17%,远高于通用Prompt(F1: 92.3%, Acc: 86.8%)。
    • LLM对比 (Table V): 面向中文的LLM (DeepSeek, Kimi) 表现优于通用LLM (GPT-4, Claude-2)。Kimi表现最佳 (F1: 99.55%),DeepSeek次之 (F1: 98.49%)。这验证了使用领域适应LLM进行抽取的重要性。
  • 真实世界应用:
    • 药材检索 (Table VI): OpenTCM的MES最高 (4.5),准确率最高 (89.6%),IRA最高 (0.81),全面优于所有基准模型(包括TCM专用LLM)。这表明GraphRAG在精确信息检索上的优势。
    • 诊断问答 (Table VII): OpenTCM的MES最高 (3.8),准确率最高 (75.1%),IRA最高 (0.78)。其表现优于通用LLM,并与TCM专用LLM(Lingdan MES 3.7, BianCang MES 3.6)相比具有竞争力或略优。这显示了其在复杂推理任务上的潜力。

3.3 假设支持

实验结果有力地支持了核心假设。

  1. 高质量的TCM知识图谱可以被成功构建(高Precision/Recall/F1)。
  2. 结合KG和GraphRAG的OpenTCM系统,在无需微调的情况下,在药材检索和诊断问答任务上均取得了优于通用LLM和(在检索任务上)甚至优于TCM专用LLM的性能。
  3. 这证明了结构化知识和GraphRAG在提升LLM在专业领域(如TCM)应用性能方面的有效性,并可作为替代高成本微调的一种途径。

4. 论文的贡献、影响和应用

4.1 论文贡献

  1. 开发了OpenTCM: 第一个已知的、结合了大规模古典中医知识图谱和GraphRAG的LLM系统。
  2. 构建了高质量TCM知识图谱: 从68本中医妇科古籍中提取并构建了一个包含4.8万实体和15.2万关系的大规模知识图谱。
  3. 验证了GraphRAG在TCM中的有效性: 证明了GraphRAG可以在无需LLM微调的情况下,显著提升在中医知识检索和诊断问答任务上的性能。
  4. 提出了有效的KG构建方法: 展示了结合定制Prompt和领域适应LLM可以高效、高保真地从古典文献中抽取结构化知识。

4.2 业界影响

  • 为中医AI开辟新路径: 提供了一种不同于主流微调范式的、基于知识图谱和RAG的中医AI解决方案。
  • 提升古典文献利用率: 使难以利用的古典中医文献知识得以结构化、并通过AI系统访问,促进其现代化应用。
  • 降低中医AI门槛: 无需微调LLM,降低了开发高性能中医AI系统的计算资源门槛。
  • 启发其他领域: 该方法(领域KG + GraphRAG + LLM)可能适用于其他拥有复杂知识体系和古籍文献的领域(如法律、历史、其他传统医学)。

4.3 潜在应用场景和商业机会

  • 面向中医师的辅助工具: 提供快速准确的药材信息查询、方剂参考、诊断建议。
  • 中医教育与研究: 作为学习和研究中医知识的工具,探索古籍中的知识关联。
  • 面向患者的中医咨询服务: 提供初步的中医健康咨询和知识普及(需谨慎,确保安全)。
  • 中药研发: 基于知识图谱挖掘潜在的药物配伍或功效。
  • 商业机会: 开发商业化的OpenTCM类产品、提供中医知识图谱构建服务、基于TCM KG的API服务。

4.4 工程师关注点

  • 知识图谱构建技术: 信息抽取(NER, RE),特别是使用LLM进行抽取;本体设计;图数据库存储与查询。
  • Prompt Engineering: 如何为特定任务(尤其是从特殊文本如古文抽取)设计高效的Prompt。
  • RAG与GraphRAG: 理解其原理,如何将KG与RAG结合;图检索算法。
  • LLM API使用与集成: 如何调用不同的LLM API,处理输入输出。
  • 系统评估: 如何设计针对知识密集型任务的评估方法,特别是缺乏黄金标准时的专家评估流程(Likert scale, IRA计算)。
  • 处理特定语言(古文): 如何选择合适的LLM和设计策略来处理非现代、非英语的文本。

5. 值得进一步探索的问题和挑战

5.1 值得探索的问题和挑战 (论文在Sec V提及)

  1. 扩展知识图谱:
    • 领域扩展: 纳入更多中医领域(如内科、外科、儿科)、罕见病、历史病例。
    • 知识类型扩展: 包含更细致的知识,如剂量依赖性、副作用、现代药理研究结合等。
  2. 增强GraphRAG能力: 支持更复杂的查询逻辑,处理模糊或不完整的用户输入。
  3. 多模态整合: 结合图像识别(如药材实物照片、舌苔面色图像)与文本知识。
  4. 用户界面优化: 为不同用户群体(医生、研究者、患者)设计定制化交互界面。
  5. 系统集成与临床验证: 将OpenTCM集成到实际医疗保健系统(如电子病历、居家养老平台),并进行严格的临床效果验证。
  6. 知识图谱的动态更新: 如何持续地从新文献或临床实践中更新知识图谱。
  7. 处理古文的多义性和不确定性: 如何更鲁棒地处理古籍中的模糊记载或不同流派的矛盾观点。

5.2 新技术和投资机会

  • 领域知识图谱构建平台: 提供自动化或半自动化构建高质量领域知识图谱的工具和服务。
  • GraphRAG引擎: 开发更强大、更通用的GraphRAG技术和平台。
  • 垂直领域AI解决方案(如中医AI): 基于OpenTCM模式,为特定垂直领域开发深度结合领域知识的AI应用。
  • 多模态知识图谱与RAG: 结合文本、图像、甚至其他传感器数据的多模态知识系统。
  • 可信赖AI在传统医学中的应用: 确保AI在处理传统医学知识时的准确性、安全性和可解释性。

6. 论文存在不足及缺失

6.1 不足之处

  1. 知识图谱构建的LLM依赖性: KG的质量高度依赖于用于抽取的LLM(Kimi, DeepSeek)的能力和偏见。虽然精度很高,但未能完全消除错误的可能性。
  2. 专家评估的主观性: 真实世界应用的评估主要依赖专家评分(MES),虽然计算了IRA,但评分本身仍有主观性,且样本量(200+200)相对有限。
  3. 缺乏与微调LLM的直接效率对比: 论文强调避免了微调,降低了计算成本。但构建大规模KG本身也需要显著的(主要是LLM推理)计算成本和专家标注成本。缺乏对这两种范式端到端成本效益的直接比较。
  4. GraphRAG的可解释性: 虽然GraphRAG比纯LLM更可能追溯信息来源,但其在复杂图谱上的检索路径和信息聚合过程本身的可解释性仍需进一步探讨。
  5. 诊断任务的简化: 诊断问答任务的评估似乎集中在根据症状推荐方剂,这可能简化了真实中医诊断的复杂性(涉及望闻问切、辨证论治等)。

6.2 需要进一步验证和存疑之处

  1. KG的覆盖度和偏差: KG主要基于68本妇科古籍,其知识是否能很好地泛化到中医其他科室?是否存在因文献选择带来的偏差?
  2. GraphRAG处理知识冲突: 中医不同流派或不同古籍对同一问题可能有不同论述,GraphRAG如何处理知识图谱中潜在的冲突或不一致性?
  3. 在真实临床数据上的表现: OpenTCM在处理结构化的古籍文本和相对直接的问答上表现良好,但在处理非结构化、充满口语化和缺失信息的真实医患对话或病历时的表现如何?
  4. 零样本 vs. 微调的深层推理能力: OpenTCM在知识检索上表现优异。但在需要更深层次、更灵活推理的复杂诊断场景下,完全不微调LLM,仅靠RAG提供知识是否足够?
  5. 对LLM选择的敏感性: 虽然使用了GraphRAG,但最终答案仍由LLM生成。系统的整体性能是否对后端LLM(如从GPT-4换成Claude)的选择敏感?

–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: