GEP: 一种基于GCG的从小型语言模型构建的聊天机器人中提取个人可识别信息的方法

 论文信息

  • 标题 (Title):GEP: A GCG-BASED METHOD FOR EXTRACTING PERSONALLY IDENTIFIABLE INFORMATION FROM CHATBOTS BUILT ON SMALL LANGUAGE MODELS

  • 作者 (Authors):Jieli Zhu, Vi Ngoc-Nha Tran

  • 发表年份 (Year):2025

  • 原文链接 (URL)https://arxiv.org/abs/2509.21192

结构化摘要 (Structured Abstract)

  • 背景/目标 (Background/Objective):小型语言模型 (SLMs) 因其在特定领域能以更低的能耗和时间成本达到与大型语言模型 (LLMs) 相近的性能而备受关注 。然而,针对基于SLM的下游任务(如聊天机器人)中的个人可识别信息 (PII) 泄露问题尚未得到充分探讨 。本研究旨在调查基于SLM的聊天机器人的PII泄露风险。

  • 方法 (Methods):首先,研究者基于BioGPT模型,使用Alpaca和HealthCareMagic医疗数据集微调出一个新的聊天机器人ChatBioGPT 。接着,研究证明了传统的基于模板的PII攻击方法在SLM上效果不佳 。为此,研究者提出了一种专为PII提取设计的、基于贪婪坐标梯度 (GCG) 的新方法——GEP

  • 结果 (Results):实验结果显示,与传统的基于模板的攻击方法相比,GEP方法在模板化数据场景下提取的PII泄露量增加了高达60倍 。在更复杂、更真实的“自由格式”PII插入场景(即PII以多样的句法形式而非固定模板存在)中,GEP仍然能够揭示高达4.53%的PII泄露率

  • 结论 (Conclusion):本研究成功开发了基于SLM的聊天机器人ChatBioGPT,并证明了其面临的PII泄露风险。提出的GEP方法在提取PII方面远优于传统方法,揭示了即使在复杂的真实世界场景中,SLM也存在泄露隐私的脆弱性

1. 引言 (Introduction)

1.1. 研究背景与核心问题 (Research Background & Problem Statement)

  • 研究背景:随着LLM参数规模的急剧增长,其巨大的能源和资源消耗变得不可持续 。因此,通常参数少于70亿的SLM逐渐成为研究热点 。通过在特定领域进行训练,SLM可以在该领域内匹敌LLM的性能 。然而,在实际部署前,SLM的隐私问题(特别是PII泄露)必须被重视 。模型可能会“记住”训练数据中的敏感信息(如姓名、电话号码),并在后续交互中无意泄露

  • 核心研究问题 (Research Questions, RQs)

    1. 基于SLM的下游应用(如医疗聊天机器人)是否存在严重的PII泄露风险?

    2. 传统的基于模板的PII攻击方法在SLM上是否有效?

    3. 如何设计一种更有效的攻击方法来全面评估SLM在更真实、更多样化的PII场景下的泄露风险?

  • 核心研究问题是否是一个新的问题? 是的。论文明确指出,尽管已有大量关于语言模型PII泄露的研究,但“很少有研究探讨基于SLM的下游任务(如聊天模型)的PII泄露可能性” 。因此,本研究是首次系统性地探索SLM聊天机器人PII泄露问题的研究之一

1.2. 文献综述与研究缺口 (Literature Review & Research Gap)

  • 文献梳理:现有的PII泄露研究主要集中在LLMs上,并且大多采用两种方式:1) 直接从预训练数据中提取PII ;2) 手动构建模板化的敏感数据并插入训练集中进行检测 。攻击方法也主要依赖于模板化查询,即用与数据插入格式相似的提示词来诱导模型补全信息

  • 研究缺口 (Gap)

    1. 模型规模缺口:现有研究主要关注LLM,对SLM的隐私风险研究不足。

    2. 应用场景缺口:对聊天机器人这一具体的下游应用场景的PII泄露研究较少。

    3. 方法论缺口:现有攻击方法严重依赖“模板化”数据和查询,但这与真实世界中语言表达多样性的情况不符 。当PII以更自然、更多变的“自由格式”存在时,模板化查询的效果会大打折扣

1.3. 研究目标与核心假设/命题 (Objectives & Hypotheses/Propositions)

  • 研究目标

    1. 开发一个基于SLM的医疗领域聊天机器人ChatBioGPT,并验证其性能。

    2. 提出一种新的、更强大的PII提取方法GEP。

    3. 使用GEP评估ChatBioGPT在“模板化”和“自由格式”两种PII插入场景下的泄露程度。

    4. 通过实验分析PII泄露与训练步数、触发词长度和泄露位置等关键因素的关系。

  • 核心假设:基于梯度的方法(如GEP)能够比手动设计的模板化查询更有效地发现模型的脆弱点,从而在更复杂的场景下揭示更多的PII泄露。

2. 研究设计与方法 (Methodology)

2.1. 研究范式与方法论 (Research Paradigm & Methodology)

  • 本研究采用定量实验研究范式

  • 研究思路:首先构建一个实验对象(ChatBioGPT),然后设计两种PII污染场景(模板化插入和自由格式插入)来训练模型,最后使用基线方法和新提出的GEP方法进行攻击,通过量化指标(ASR)来比较和评估模型的PII泄露风险。

  • 论文中提到的解决方案之关键是什么? 解决方案的关键在于GEP (GCG-based method for PII Extraction)。其核心思想是,不再依赖人工设计的、固定的攻击模板,而是通过优化来自动寻找能够诱导模型泄露PII的“触发词”(trigger tokens)。它将PII提取问题转化为一个最大化目标(如特定疾病名称)生成概率的优化问题。

  • 跟之前的方法相比有什么特点和优势?

    1. 自动化与自适应:GEP通过计算梯度来自动寻找最佳的攻击提示词,避免了手动设计模板的低效和不确定性

    2. 攻击能力更强:梯度优化能够探索更广阔的输入空间,发现人类难以想到的、但对模型来说极为有效的攻击向量,从而揭示更多隐藏的泄露。

    3. 场景适应性更广:对于PII以非模板化的“自由格式”存在的复杂情况,传统方法几乎失效,而GEP通过学习统一的触发模式,依然能够有效提取信息

2.2. 数据来源与样本 (Data Source & Sample)

  • 基础模型:BioGPT,一个为生物医学领域适配的GPT模型,属于SLM

  • 微调数据

    • Alpaca数据集:用于赋予模型基础的聊天能力

    • HealthCareMagic-100k数据集:用于注入医疗领域的专业对话知识

  • PII数据:研究人员手动构建了1000个(姓名, 症状)数据对 。姓名从美国人口普查局和社保局的公开数据中随机组合生成 。症状使用ChatGPT从HealthCareMagic数据条目中总结得出

2.3. 操作化与测量 (Operationalization & Measurement)

  • PII插入操作化

    • 模板化插入 (Template-based):将(姓名, 症状)数据对填入固定模板“The disease or symptom of {name} is {symptom}”中,然后将此句子随机插入原始的1000条HealthCareMagic数据中

    • 自由格式插入 (Free-style):直接修改原始的1000条数据,将第一人称陈述改为以特定姓名为主题的第三人称陈述,并相应调整代词和动词,使PII自然地融入文本中

  • 测量指标:主要使用攻击成功率 (Attack Success Rate, ASR) 来量化PII泄露程度 。其计算公式为:

    ,其中 Ns 是成功提取的敏感数据数量,N 是敏感数据集中的数据总数

3. 结果与发现 (Results & Findings)

3.1. 主要发现概述 (Overview of Key Findings)

  • ChatBioGPT性能达标:新开发的ChatBioGPT在BERTscore指标上表现出色,甚至优于之前研究中的ChatDoctor和ChatGPT,且由于模型规模小,微调时间仅需约3小时

  • 传统模板攻击在SLM上效果有限:使用传统的模板化查询方法攻击经过模板化数据污染的ChatBioGPT(T)模型,其ASR非常低,最高仅为0.22% (0.0022) 。这证明了基线攻击方法的局限性。

  • GEP攻击效果显著

    • 模板化插入场景下,GEP方法大幅提升了攻击效果,ASR最高达到9.07%,相比传统方法提升了40到60倍

    • 在更具挑战性的自由格式插入场景下,GEP仍然能够成功提取PII,ASR最高可达4.53%

  • PII泄露规律探索:实验发现,大部分PII泄露发生在攻击优化的早期阶段 ;触发词长度为4时攻击效果最佳 ;且泄露的PII倾向于出现在生成文本的开头部分

3.2. 关键数据与图表解读 (Interpretation of Key Data & Figures)

  • 表 2: 不同插入和查询方法的ASR结果

    • 这张表格是本研究的核心成果展示。它清晰地对比了不同攻击策略的效果。

    • T&T (模板插入 & 模板查询):ChatBioGPT (347M)的ASR极低,仅为0.0010 (Greedy) 和 0.0022 (Topk)

    • T&G (模板插入 & GEP查询):ASR大幅跃升至0.0643 (Greedy) 和 0.0907 (Topk),提升了数十倍

    • F&G (自由格式插入 & GEP查询):即使在如此困难的设定下,ASR依然达到了0.0360 (Greedy) 和 0.0453 (Beam search)

    • 解读:该表格用强有力的数据证明了两个核心论点:1) 传统的模板攻击方法不足以评估SLM的真实泄露风险;2) GEP是一种远为强大的攻击工具,能揭示更深层次的隐私脆弱性。

  • 图 3(a): 不同触发词长度下的ASR

    • 该图展示了在Greedy解码下,触发词长度对ASR的影响。

    • 解读:在模板化插入场景下,ASR在触发词长度为4时达到峰值(6.43%),之后开始下降 。这揭示了一个权衡:触发词越长,搜索空间越大,可能找到更好的解;但同时优化难度也越大,可能在有限步数内无法收敛到最优解 。长度为4是这个特定任务的“甜点”

4. 讨论 (Discussion)

4.1. 结果的深度解读 (In-depth Interpretation of Results)

  • 结果的意义:本研究的结果揭示了SLM在隐私保护方面存在严重的脆弱性。即使是参数量较小的模型,在经过特定领域数据微调后,也会记忆并泄露训练数据中的PII。更重要的是,这种泄露风险可能被传统的、不够强大的评估方法所低估。

  • 回答研究问题:是的,本研究通过构建ChatBioGPT并成功用GEP进行攻击,有力地回答了引言中提出的所有问题。它证实了SLM聊天机器人存在PII泄露风险,指出了传统方法的不足,并提供了一种更有效的评估工具GEP。

4.2. 理论贡献 (Theoretical Contributions)

  • 本研究将用于“越狱”攻击的梯度优化思想(GCG)成功地

    适配并应用于PII提取领域,并设计了相应的目标函数和算法流程(GEP)。这为隐私攻击领域,特别是针对语言模型的提取攻击,提供了一种新的、自动化的攻击范式。

4.3. 实践启示 (Practical Implications)

  • 对开发者的警示:对于使用SLM构建领域应用的开发者(尤其是在医疗、金融等敏感领域),本研究是一个强烈的警示。在微调模型时必须高度警惕训练数据中可能含有的PII,因为即使PII以非常自然的方式融入文本,也可能被高级攻击方法提取出来。

  • 对安全研究的推动:GEP方法不仅是一种攻击工具,也为防御方的“红队演练”提供了利器。防御方法的设计者可以使用GEP来更全面地评估其隐私保护技术的有效性。

4.4. 局限性与未来研究 (Limitations & Future Research)

  • 研究的局限性

    1. 数据不平衡问题:尽管数据是随机选取的,但某些常见症状(如“腹痛”)在数据集中出现频率更高,可能导致模型对这些高频数据记忆更深

    2. 触发词的隐蔽性:GEP生成的触发词可能是无意义的乱码,容易被基于困惑度的防御机制检测到

    3. 泛化性有待验证:研究主要集中在一种模型和一种PII类型(病人-疾病对)上,未来需要扩展到更多模型和数据类型

  • 未来研究方向

    1. 数据集构建:创建更全面、数据分布更均衡的PII数据集

    2. 提升触发词的自然度:将提示词的困惑度加入损失函数,以生成更流畅、更隐蔽的攻击

    3. 探索防御方法:最重要的是,需要探索相应的防御技术来阻止此类潜在的泄露

5. 结论 (Conclusion)

  • 本研究对SLM在聊天机器人应用中的PII泄露问题进行了开创性探讨。通过构建ChatBioGPT模型,并提出一种高效的、基于梯度的攻击方法GEP,研究证明了SLM存在严重的隐私泄露风险,而这种风险在传统模板化攻击下被严重低估。GEP在模板化和更真实的自由格式数据场景中均表现出强大的PII提取能力,凸显了在SLM的实际部署中,加强隐私保护技术的紧迫性和必要性。

6. 核心参考文献 (Core References)

  • [1] Zou, A., et al. (2023). Universal and transferable adversarial attacks on aligned language models.

    • 链接: (arXiv:2307.15043)

    • 重要性: 本文提出了GCG方法,是GEP方法的技术基础,为通过梯度优化寻找对抗性提示词提供了核心算法。

  • [2] Luo, R., et al. (2022). BioGPT: generative pre-trained transformer for biomedical text generation and mining.

    • 链接: (Briefings in Bioinformatics)

    • 重要性: 本文提出了BioGPT模型,是本研究中构建聊天机器人ChatBioGPT所使用的基础SLM。

  • [3] Carlini, N., et al. (2019). The secret sharer: Evaluating and testing unintended memorization in neural networks.

    • 链接: (USENIX Security Symposium)

    • 重要性: 这是评估神经网络无意记忆的经典工作之一,其采用的“模板化插入和查询”方法是本文进行对比和批判的基线方法。

  • [4] Li, Y., et al. (2023). Chatdoctor: A medical chat model fine-tuned on a large language model meta-ai (llama) using medical domain knowledge.

    • 链接: (Cureus)

    • 重要性: 本文提供了构建医疗聊天机器人的流程和数据集(HealthCareMagic-100k),是本研究构建ChatBioGPT时所遵循和参考的主要工作。

No comments: