大型语言模型的医学可解释性与知识图谱


论文信息

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):尽管大型语言模型(LLMs)在各项任务中表现出色,但其内部如何表示和处理知识,尤其是在高风险的医疗领域,仍然是一个“黑箱” 。理解模型的内在机制对于构建安全、可信的医疗AI至关重要 。本研究旨在系统性地探究五种主流开源LLM中的医学知识表征,并绘制出“知识图谱”,以揭示不同类型的医学概念(如年龄、症状、疾病、药物)在模型网络层中的具体存储和处理位置

  • 方法 (Methods):研究团队对五个LLM(Llama3.3-70B, Gemma3-27B, MedGemma-27B, Qwen-32B, GPT-OSS-120B)进行了深入分析 。他们综合运用了四种独立的可解释性技术来交叉验证结果:(1) UMAP投影:将中间层激活向量降维可视化并计算聚类得分 ;(2) 基于梯度的权重显著性 (Weight Saliency):计算损失函数对模型权重的梯度以识别关键层 ;(3) 层损伤 (Layer Lesioning):通过移除特定层来观察模型性能下降程度 ;(4) 激活补丁 (Activation Patching):通过替换特定层的激活值来评估该层对特定知识的因果作用

  • 结果 (Results):研究成功绘制了各模型的医学知识图谱。以Llama3.3-70B为例,大部分医学知识在前一半的模型层中进行处理 。此外,研究还发现了几个有趣的现象:(i) 年龄的表征是非线性的,并在18岁等关键节点出现不连续性 ;(ii) 疾病进展的表征在某些层中呈现出非单调和循环的模式 ;(iii) Llama3.3-70B中,药物更多地按“医学专科”而非“作用机制”聚类 ;(iv) Gemma和MedGemma模型在中间层出现激活崩溃现象,但在最后几层恢复

  • 结论 (Conclusion):本研究绘制的知识图谱为未来针对LLM的医学任务微调、知识擦除或去偏见等工作提供了具体指导,指明了应在哪些层进行干预 。同时,揭示的非线性、循环等复杂表征模式,深化了我们对LLM内部知识结构的理解。

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:大型语言模型(LLMs)已在众多领域取得成功,但其内部工作机制依然不透明 。在医疗这一高风险领域,模型可能存在的隐藏偏见(如对特定年龄、疾病的倾向性)会直接影响其安全性与可靠性 。因此,打开LLM的“黑箱”,理解其如何表征和处理医疗知识,是当前亟待解决的关键问题。

  • 核心研究问题 (RQs):本文旨在回答以下核心问题:

    1. LLM是如何表征和处理不同类型的医学知识的(例如患者年龄、症状、疾病、药物及其剂量)?

    2. 这些知识具体存储在模型的哪些网络层中?

    3. 不同的LLM在表征医学知识时是否存在共性或特性?

  • 问题创新性:虽然已有零星的LLM医疗可解释性研究,但它们通常只针对单一模型、采用单一技术或分析单一医学概念 。本文的创新之处在于其系统性综合性:首次对多个主流LLM,使用多种可解释性方法,进行跨越多个医学知识领域的综合对比分析

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 文献梳理:作者首先回顾了通用的LLM可解释性研究,如线性表征假说(即LLM中的所有特征都是线性的)及其遇到的挑战(如“星期几”等概念的循环表征) 。随后,作者梳理了少数几篇现有的医疗LLM可解释性研究,指出这些研究的局限性:有的仅要求模型自我解释诊断决策 ,有的只在单一模型上用单一方法识别了“症状检测回路”等

  • 研究缺口 (Gap):现有研究存在三大缺口:(1) 缺乏系统性:未全面覆盖从患者人口统计到治疗方案的多个医学知识领域 ;(2) 方法单一:大多依赖单一的可解释性技术,结论不够稳健 ;(3) 模型单一:研究结论难以推广,无法判断发现的现象是特定模型的特性还是LLM的共性 。本文的研究设计正是为了填补这一空白。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标

    1. 对五个主流开源LLM进行系统的医学领域可解释性分析

    2. 构建并可视化“LLM知识图谱”,标示出不同医学知识在模型各层中的存储位置

    3. 发现并报告LLM在表征医学概念时存在的特殊现象

  • 核心命题:本研究是一项探索性研究,未设立正式的待检验假设。其核心方法论命题是:通过综合运用四种具有不同原理和假设的可解释性方法,当它们的分析结果指向同一网络层时,可以更有信心地认为该层确实是存储和处理特定医学知识的关键位置

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究采用定量 (Quantitative) 的计算分析范式。

  • 方法论:核心方法是构建一个多技术融合的可解释性分析框架,为每个LLM生成关于五大类医学知识的“知识图谱” 。该框架集成了四种技术:

    1. UMAP 激活投影:将模型中间层的激活向量通过UMAP算法降至二维空间进行可视化 。使用轮廓系数 (Silhouette Score) 来量化不同概念(如不同疾病)的聚类分离度,以及使用局部各向异性 (local anisotropy) 来衡量年龄表征的“一维性”

    2. 权重显著性 (Weight Saliency):通过计算损失函数对每一层模型参数的梯度,来评估该层对特定医学知识预测的重要性 。梯度值越大,说明该层权重对结果影响越大。

    3. 层损伤 (Layer Lesioning):依次将模型的每一层替换为恒等函数(相当于“移除”该层),然后评估模型输出质量的下降程度 。性能下降最显著的层被认为是关键层。

    4. 激活补丁 (Activation Patching):这是一种因果干预技术。通过在“干净”的输入运行过程中,将某一层激活替换为来自“受污染”输入的激活,观察模型最终输出是否被“污染”,从而判断该层在处理相关信息中的因果作用

  • 优势:这四种方法基于完全不同的假设(可视化、梯度、消融、因果),它们的结论能够相互印证,从而大大提高了研究结果的可靠性

2.2. 数据来源与样本 (Data Source & Sample)

  • 数据来源:研究数据并非来自真实世界的病人,而是模型在响应特定提示(Prompts) 时产生的内部状态(激活值、权重等) 。研究团队设计了覆盖五大医学知识领域的提示模板(如“一个病人被诊断为[疾病名称]”),并由团队内的临床神经科学博士进行了专业验证

  • 样本:研究样本为五个广泛使用的开源LLM,覆盖了不同的架构和参数规模:Llama3.3-70B、Gemma3-27B、MedGemma-27B、Qwen-32B 和 GPT-OSS-120B

2.3. 操作化与测量 (Operationalization & Measurement)

  • 知识定位的操作化:本文将“知识存储位置”这一抽象概念操作化为四种技术量化指标最高的连续网络层区间

  • 测量标准

    • UMAP:选择轮廓系数或局部各向异性增长率最快的层区间

    • 显著性、层损伤、激活补丁:选择得分高于75%分位数的层区间

  • 最终,将这四种方法识别出的层区间绘制在同一张图上,形成“LLM知识图谱”

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • 医学知识图谱 (LLM Medical Maps):研究成功为Llama3.3-70B等模型绘制了知识图谱。图谱显示,Llama3.3-70B主要在前40层处理各类医学知识,而GPT-OSS-120B和Qwen-32B则倾向于在模型的后半部分处理

  • 年龄表征的非线性与不连续性:LLM对年龄的表征并非一条直线。UMAP可视化显示,年龄流形在中间层呈现出弯曲甚至折叠的形态 。特别是在17岁与18岁之间,模型的表征出现了显著的“断裂”,表明模型明确区分了未成年人与成年人

  • 疾病进展表征的循环性:对于阿尔茨海默病、帕金森病等疾病,其进展过程在LLM中的表征是非单调的,甚至呈循环状 。这意味着,疾病晚期(如第7期)的表征在向量空间中有时会比疾病中期(如第4期)更接近健康状态(第1期)

  • 药物知识的聚类模式:对多种药物的分析发现,在Llama3.3-70B等模型中,药物更多地是按照其所属的医学专科(如心脏科药物、神经科药物)进行聚类,而不是按照其药理作用机制(如酶抑制剂、受体拮抗剂)

  • Gemma模型的激活崩溃:Gemma-27B和专门的MedGemma-27B模型在中间层(如第20层)的激活向量在UMAP空间中会坍缩成几个点,几乎失去区分度,但在后续的网络层中又会重新展开并恢复表征能力

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 图2:Llama3.3-70B的医学知识图谱 (LLM Map for Llama3.3-70B)

    • 内容:该图以类似甘特图的形式,展示了四种分析方法(用不同颜色表示)识别出的与五类医学知识(年龄、症状、疾病、药物、剂量)相关的关键层区间。

    • 解读:从图中可以清晰地看到,对于Llama3.3-70B,绝大多数彩色条都集中在0-45层之间,直观地证明了该模型主要用前一半的网络来处理医学知识。例如,关于“药物”的知识,在15-45层之间被多种方法一致地标记为重要

  • 图3:年龄的UMAP分析 (UMAP Analysis for Age)

    • 内容:该图展示了从1岁到100岁的表征在不同层的UMAP投影。左上角的图显示了复杂的非线性结构。右下角的“年龄不连续性热力图”是关键,它展示了相邻年龄之间表征的距离。

    • 解读:热力图清晰地显示,在第37层,绝大多数相邻年龄的距离都很小(淡色),仅在17岁和18岁之间出现了一条非常亮的竖线,表示两者之间的表征距离极大 。这为“模型学习到了成年与否的法律/社会概念”提供了有力证据。

  • 图4:疾病进展的UMAP分析 (Disease Progression UMAP)

    • 内容:该图展示了四种疾病从健康到死亡9个阶段的表征轨迹。图下方的两个线图是量化分析的关键。

    • 解读:“距离第一阶段最近的阶段”线图显示,在多个层中,代表帕金森病的紫色线在后期(如阶段7)的值反而比中期(如阶段3-4)更低(即更接近第一阶段),证明了其表征的非单调性

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 研究发现清晰地回答了引言中“知识在哪”的问题。Llama3.3-70B将医学知识集中于前半部分,可能意味着模型的不同部分有功能划分,后半部分或许负责更高级的推理或语言生成任务

  • 年龄表征的非线性和不连续性表明,LLM学习到的“年龄”并非一个单纯的数字,而是与社会、法律概念(如“成年”)高度纠缠的复杂特征 。这使得基于年龄的去偏见工作变得非常困难,不能简单地进行线性调整

4.2. 理论贡献 (Theoretical Contributions)

  • 方法论贡献:提出并验证了一套系统的、多技术融合的框架,用于绘制LLM中特定知识领域的“地图”,为其他领域(如法律、金融)的可解释性研究提供了范例。

  • 理论发现:为挑战“线性表征假说”提供了来自复杂领域的有力经验证据 。揭示了LLM内部表征可以是非线性的、不连续的、甚至是循环的,极大地丰富了我们对神经模型内部几何结构的认识。

  • 模型差异性:揭示了不同LLM家族在知识存储策略上的差异(前一半 vs. 后一半),这对“模型通用性”的假设提出了挑战,强调了针对特定模型进行分析的必要性

4.3. 实践启示 (Practical Implications)

  • 指导模型干预:本研究的知识图谱具有极高的实用价值。当需要在医疗领域对LLM进行微调、知识编辑或去偏见时,研究者不再需要盲目地对整个模型进行操作,而是可以精确地针对图谱上标示出的关键层进行干预,从而大大提高效率和效果 。例如,要修正Llama3.3-70B中与药物相关的知识,应重点关注15-45层

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性:最大的局限性在于缺乏验证这些内部表征的“黄金标准”或“地面真实” (ground-truth),因为我们对神经网络的内部工作原理理解尚不完备 。作者通过多方法交叉验证的方式来缓解这一问题

  • 未来研究:作者提出了一些明确的未来研究方向:(1) 深入探究年龄不连续性背后可能存在的对未成年人群体的特定偏见 ;(2) 进一步研究Gemma系列模型激活崩溃的原因及其对模型性能的影响 ;(3) 设计更复杂的提示来探索疾病进展表征的潜在结构,例如不同病理路径是否会汇合到一个共同的中间状态

5. 结论 (Conclusion)

本研究通过一套系统的、多技术融合的分析框架,成功绘制了五种主流大型语言模型的“医学知识图谱”,定位了年龄、症状、疾病和药物等关键医学概念在模型网络层中的存储与处理位置。研究不仅揭示了模型间知识分布的宏观差异,还发现了年龄表征的非线性与不连续性、疾病进展的循环模式等多种此前未被报道的微观表征现象。这些发现不仅深化了对LLM内部工作机制的理论理解,也为未来开发更安全、可信和可控的医疗AI提供了精确的干预靶点和实践指导。

6. 核心参考文献 (Core References)

  1. Engels, J., Michaud, E. J., Liao, I., Gurnee, W., & Tegmark, M. (2024). Not all language model features are one-dimensionally linear. arXiv preprint arXiv:2405.14860.

    • 这篇文献挑战了线性表征假说,发现了循环等非线性模式,为本文中年龄和疾病进展的非线性/循环发现提供了理论背景。

  2. Heimersheim, S., & Nanda, N. (2024). How to use and interpret activation patching. arXiv preprint arXiv:2404.15255.

    • 本文四种核心方法之一“激活补丁”的最佳实践指南,是理解本文方法论的关键参考文献。

  3. McInnes, L., Healy, J., & Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.

    • 本文核心的可视化与分析工具UMAP的原始论文。

  4. Meng, K., Bau, D., Andonian, A., & Belinkov, Y. (2022). Locating and editing factual associations in gpt. Advances in neural information processing systems, 35, 17359-17372.

    • 著名的模型编辑方法ROME的论文,是本文提出的“精确定位后进行干预”这一实践启示的重要背景。

  5. He, Y., Zheng, W., Dong, Y., Zhu, Y., Chen, C., & Li, J. Towards global-level mechanistic interpretability: A perspective of modular circuits of large language models. In Forty-second International Conference on Machine Learning.

    • 这是一篇较早的医疗LLM可解释性研究,发现了“模块化回路”,是本文用以对比并凸显自身系统性优势的关键文献之一。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: