医用大型语言模型中的记忆现象:普遍性、特征及影响


论文信息

  • 标题 (Title): Memorization in Large Language Models in Medicine: Prevalence, Characteristics, and Implications

  • 作者 (Authors): Anran Li, Lingfei Qian, Mengmeng Du, Yu Yin, Yan Hu, Zihao Sun, Yihang Fu, Erica Stutz, Xuguang Ai, Qianqian Xie, Rui Zhu, Jimin Huang, Yifan Yang, Siru Liu, Yih-Chung Tham, Lucila Ohno-Machado, Hyunghoon Cho, Zhiyong Lu, Hua Xu, Qingyu Chen

  • 发表年份 (Year): 2025

  • 原文链接 (URL): https://arxiv.org/abs/2509.08604 

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):大型语言模型 (LLM) 通过在医疗数据上进行持续预训练和微调,正被广泛应用于医学领域。然而,这些模型在多大程度上会“记忆”——即复现其训练数据中的内容——仍然是一个关键的开放性问题 。记忆现象既可能是有益的(如保留重要的医学知识),也可能带来风险(如泄露患者敏感信息、降低模型泛化能力)。本研究旨在对医用 LLM 中的记忆现象进行首次全面评估,考察其普遍性、特征、数量及其对下游应用的影响

  • 方法 (Methods):研究系统地分析了三种常见的模型适配场景:(1) 在医疗语料库上进行持续预训练;(2) 在标准医疗基准数据集上进行微调;(3) 在真实的临床数据(包括来自耶鲁纽黑文健康系统的超过 13,000 份住院记录)上进行微调 。评估对象涵盖了主流的医疗基础模型 (PMC-LLAMA, Meditron 等) 和通用 LLM (LLAMA 2/3) 。记忆的量化指标包括精确匹配(如复现连续 30/50 个词元)、特定任务的记忆(如在问答任务中复现被删除的选项),以及对受保护健康信息 (PHI) 的复现

  • 结果 (Results):研究发现,记忆现象在所有适配场景中普遍存在,且其比率显著高于通用领域 。例如,在持续预训练阶段,连续 30 个词元的记忆率在 10% 到 20% 之间 。在对真实临床数据进行微调后,模型从 10,000 条训练记录中复现了 3,192 条 PHI 实例 。记忆现象具有持久性,在持续预训练阶段记忆的内容,高达 87% 在后续微调后仍然存在 。研究将记忆分为三类:有益的(准确回忆临床指南)、信息量低的(重复免责声明等模板化语言)和有害的(复现数据集特定内容或敏感临床信息)

  • 结论 (Conclusion):本研究为医用 LLM 的记忆现象提供了基准,并提出了实践性建议 。研究者应促进有益记忆以增强模型的领域知识,通过多样化数据等方式最小化信息量低的记忆,并采取措施(如惩罚机制)来减轻有害记忆,以防止敏感信息泄露

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:LLM 因其强大的零样本/少样本学习和生成能力,在医学领域展现出巨大潜力 。然而,通用 LLM 在专业领域的表现通常不佳,可能导致事实性幻觉和诊断错误 。因此,研究人员通过在医疗数据上进行“持续预训练”或“监督微调”来适配模型,以提升其专业能力和安全性 。这些适配方法已被证明能显著提高模型在临床信息提取、疾病诊断等任务上的性能

  • 核心研究问题 (RQs):尽管模型适配效果显著,一个关键问题随之而来:LLM 在多大程度上会“记忆”其在适配过程中接触到的医疗训练数据 ?记忆现象是一把双刃剑:一方面,它有助于模型保留有价值的医学知识;另一方面,它带来了严峻的风险,包括:(1)隐私泄露:模型可能无意中复现包含患者身份信息的敏感内容 。(2)泛化能力下降:过度记忆可能意味着模型只是在“死记硬背”而非真正理解医学知识,从而限制了其在不同场景下的应用能力 。因此,本文的核心问题是:系统地量化和定性医用 LLM 中的记忆现象,揭示其普遍性、特征、数量及其对下游应用的潜在影响。

  • 该问题在 LLM 领域并非全新,但这是首次在高风险的医学领域进行如此全面的系统性研究。

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 现有研究:大量研究致力于通过持续预训练(如 PMC-LLAMA, Meditron)和微调来开发医疗专用 LLM,并证明了其相较于通用模型的优越性 。同时,已有研究指出了 LLM 记忆训练数据并可能泄露隐私的风险

  • 研究缺口 (Gap):当前缺乏对医用 LLM 记忆现象的全面、系统的评估。通用领域的记忆研究无法完全反映医学领域的特殊性,例如数据的高度同质性、严格的隐私要求以及记忆内容对临床决策的直接影响。现有工作未系统地比较不同适配阶段(持续预训练 vs. 微调)、不同数据类型(文献 vs. 临床笔记)对记忆的影响。

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标:对医用 LLM 的记忆现象进行首次全面的实证研究,系统地评估其:

    1. 普遍性 (Prevalence):记忆发生的频率。

    2. 特征 (Characteristics):被记忆的内容类型。

    3. 数量 (Volume):被记忆的内容量。

    4. 下游影响 (Downstream impact):记忆对医疗应用的潜在影响。

  • 核心假设 (Implied Hypotheses)

    1. 由于医疗训练数据的同质性更高,医用 LLM 的记忆现象将比通用 LLM 更普遍。

    2. 记忆模式在持续预训练和微调阶段会有所不同,前者更倾向于逐字记忆,后者则表现出更多任务相关的记忆。

    3. 在持续预训练阶段获得的记忆内容在后续微调中会大量保留,即记忆具有持久性。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 研究范式:本研究采用定量 (Quantitative) 的实证分析范式。

  • 方法论:核心方法是通过一系列精心设计的实验,在三种不同的模型适配场景下系统地量化和分析记忆现象。

    • 解决方案之关键:关键在于其系统性和全面性。研究并未局限于单一场景,而是覆盖了 LLM 适配的全流程,并采用了多维度的评估指标。

      1. 场景一:持续预训练:使用医疗基础模型(如 Meditron)的训练语料库作为输入前缀,提示模型生成后续文本,并将其与原文进行比较

      2. 场景二:在基准数据集上微调:在医疗问答 (QA) 数据集(如 MedQA)上微调模型,然后通过随机移除一个答案选项并提示模型重新生成该选项,来测试其对数据集特定内容的记忆

      3. 场景三:在临床数据上微调:在一个包含 13,000 份真实住院记录的数据集上微调模型以执行疾病诊断任务,然后评估模型对文本内容(包括 PHI 和其他敏感信息)的记忆程度

    • 与之前方法的特点和优势:这是首次如此大规模、系统地研究医学领域的 LLM 记忆问题。它不仅量化了记忆的普遍性,还对其进行了分类(有益、信息量低、有害),并探究了其持久性,为该领域提供了首个全面的基准和实践指南。

2.2. 数据来源与样本 (Data Source & Sample)

  • 持续预训练数据:涵盖了多个公开的医疗语料库,包括 PubMed 摘要、PMC 全文文章、临床指南以及 MIMIC-III 临床笔记

  • 基准微调数据:使用了两个标准的医疗问答数据集 MedQA 和 MedMCQA

  • 临床微调数据:一个经耶鲁大学 IRB 批准的、包含 13,000 份从耶鲁纽黑文健康系统收集的独特住院记录的数据集,用于疾病诊断任务的微调和评估

2.3. 操作化与测量 (Operationalization & Measurement)

  • 精确测量 (Exact measures):这是主要的评估方式,用于量化模型复现训练数据中连续相同词元序列的能力,主要考察长度为 30 和 50 的序列

  • 近似与语义测量 (Approximate & semantic measures):作为补充,使用 ROUGE-L、BLEU、BERT score 和 BART score 等指标来评估子串重叠和语义相似性

  • 任务特定测量

    • 答案选项复现:在 QA 任务中,衡量模型能否精确或近似地复现被移除的答案选项

    • 敏感信息检测:在临床数据微调后,使用先进的 PHI 检测工具结合人工验证,来识别和量化被复现的 PHI 。此外,还通过人工审阅 200 份输出来识别标准 PHI 定义之外的敏感信息

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • 普遍性:记忆在医用 LLM 中非常普遍,且显著高于通用领域 。在持续预训练阶段,30 词元记忆率高达 10-20% ;在对 10,000 份临床记录进行微调后,模型复现了 3,192 条 PHI 实例

  • 持久性:记忆是持久的。高达 87% 在持续预训练中记忆的内容,在模型经过下游任务微调后依然存在

  • 特征:持续预训练和微调阶段的记忆模式不同。前者更倾向于精确的、长序列的文本复现,而后者则表现出更多的任务特定记忆(如复现 QA 选项),即便其精确文本复现率较低

  • 影响因素模型规模输入长度是主要影响因素。模型越大,记忆率越高(如 Meditron-70B vs. 7B);输入前缀越长,记忆率也越高 。相比之下,解码参数(如温度 temperature、top-k)对记忆的影响很小

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 表 2 & 图 1:持续预训练阶段的记忆

    • 解读:这些图表展示了持续预训练后,医疗基础模型相比其通用基线模型具有更高的记忆率。例如,在“临床指南”数据集上,Meditron-7B 的 30 词元记忆率是 10.48%,而其基线 LLaMA2 仅为 1.23% 。图 1 清晰地显示,随着输入前缀长度的增加,各模型的记忆率普遍呈上升趋势。

  • 表 5 & 图 4:基准数据集微调阶段的记忆

    • 解读:这些图表的核心发现是模型对答案选项的记忆。即使模型的逐字文本记忆率不高,但它们在被提示时能高频地复现被移除的答案选项。例如,在 MedQA 数据集上,微调后的 Med-LLaMA3 复现了约 15% 的被移除选项,显著高于基线模型 。这揭示了一种有害的、针对数据集“捷径”的记忆模式。

  • 表 8 & 表 9:临床数据微调阶段的记忆

    • 解读:这是本研究中最具警示性的结果。表 8 量化了微调后的模型复现了 3,192 条 PHI 实例,主要包括日期/年龄、姓名和地点 。更令人担忧的是,表 9 展示了通过人工审查发现的、标准 PHI 定义之外的98 条敏感信息,如药物滥用史、家庭创伤和具体的治疗细节 。这表明,即使进行了标准的去标识化处理,LLM 仍可能泄露高度敏感的患者信息。

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 研究结果证实,适配医用 LLM 的过程伴随着显著的记忆现象。其比率高于通用领域,很可能是因为医疗语料库(如临床指南、病历)在内容和风格上比通用网络文本更加同质化和重复

  • 本研究将记忆现象系统地分为三类(见图 7):

    有益的(如记忆生物医学概念和临床指南,支持事实准确性)、信息量低的(如记忆文档免责声明等模板化语言,反映了表层学习而非深度理解)和有害的(如复现 QA 答案选项或患者隐私信息,降低泛化并带来安全风险)

  • 记忆的持久性是一个关键发现,它意味着在预训练阶段引入的风险不会在微调中被轻易“遗忘”,需要从模型生命周期的早期就进行管理

4.2. 理论贡献 (Theoretical Contributions)

  • 理论贡献:本研究为医用 LLM 的记忆现象提供了首个全面的实证基准。它不仅量化了这一现象,还提出了一个实用的分类框架(有益、信息量低、有害),并揭示了其持久性和影响因素。这为后续研究和模型开发提供了重要的理论基础和评估标准。

  • 业界影响:本研究的结果对所有开发或部署医用 LLM 的机构都具有直接的指导意义。它强调了在对真实临床数据进行微调时面临的严峻隐私风险,并指出标准的去标识化流程可能不足以防范信息泄露 。研究明确呼吁业界采纳更严格的报告标准,将记忆评估作为与准确性同等重要的指标

4.3. 实践启示 (Practical Implications)

  • 对模型开发者:图 7 中提供的建议极具操作性。开发者应:

    • 促进有益记忆:通过设计领域特定的训练目标来增强模型对核心知识的记忆。

    • 最小化信息量低的记忆:通过数据去重、聚类等方法增加训练数据的多样性,并探索基于推理的后训练方法

    • 减轻有害记忆:在训练中加入惩罚机制,探索对抗性学习等方法来抑制对训练样本的过度依赖

  • 核心启示是,记忆评估应贯穿模型适配的整个生命周期。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 局限性:尽管研究很全面,但仍未覆盖所有的 LLM 家族和下游任务(如临床信息提取)。由于不同模型的训练数据和可用性各不相同,直接的跨模型比较受到限制 。研究主要集中于可访问训练数据的开源模型,对闭源模型的记忆探究有待进一步工作

  • 未来研究:未来的研究方向包括:(1) 更好地理解有益记忆和有害记忆之间的权衡关系 ;(2) 建立标准化的记忆评估基准,以支持更一致的跨模型比较 ;(3) 开发新的训练技术,以选择性地增强知识记忆,同时抑制敏感数据的记忆。

5. 结论 (Conclusion)

  • 本文得出结论,记忆是医用 LLM 中一个普遍、持久且复杂多面的现象。它既带来了机遇(知识保留),也构成了重大风险(隐私泄露、泛化能力差)。本研究通过全面的评估,为理解和管理这一现象提供了坚实的基础,其提出的分类框架和实践建议为安全、负责任地开发和部署医用 LLT铺平了道路。

6. 核心参考文献 (Core References)

  1. Carlini, N. et al. (2021, 2023). Extracting Training Data from Large Language Models & Quantifying Memorization Across Neural Language Models.

    • 这两篇是研究 LLM 记忆和数据提取的开创性工作,为本研究在通用领域的方法论(如使用前缀提示和精确匹配度量)提供了基础,并构成了重要的比较对象。

  2. Stubbs, A., & Uzuner, Ö. (2015). The 2014 i2b2/UTHealth corpus & related works.

    • 这些文献定义了临床文本去标识化和 PHI 识别的黄金标准,是本研究在评估敏感信息记忆时所采用的核心定义和依据。

  3. Wu, C. et al. (PMC-LLAMA); Chen, Z. et al. (Meditron); Xie, Q. et al. (Me-LLaMA).

    • 这几篇文献分别介绍了本研究所评估的几个核心医疗基础模型。本研究直接对这些已发表的模型进行了记忆分析。

  4. A generalist medical language model for disease diagnosis assistance. Nature Medicine.

    • 这篇文献是本研究中“在临床数据上微调”场景的参照,展示了微调对提升诊断准确性的益处。本研究在此基础上,进一步揭示了这种做法背后隐藏的记忆风险。


–EOF–
转载须以超链接形式标明文章原始出处和作者信息及版权声明.

No comments: