Machine Unlearning of Personally Identifiable Information in LLMs (D. Parii et al., NLLP/ACL 2025)
核心问题与动机
大型语言模型(LLMs)在海量网路资料上预训练,常会记忆并重现个人可识别资讯(Personally Identifiable Information, PII),如姓名、电话、地址、银行帐号、医疗资讯等。这不仅引发严重的隐私与伦理问题,也涉及法律合规,例如欧盟 GDPR 的「被遗忘权」(Right to Be Forgotten),要求资料主体有权请求删除其个人资料。
现有挑战包括:
- 完整重新训练模型成本高昂且不具弹性。
- 传统机器遗忘(Machine Unlearning)方法多针对一般事实或虚构知识(如 TOFU 基准),较少专注 PII,且忽略隐含知识(implicit knowledge) 的移除(例如透过改述、反向推理或一跳关联仍可推断 PII)。
- 评估指标常将所有 token 同等看待,忽略 PII 的细粒度洩漏风险,且对抗性攻击(如混淆提示、jailbreak)下的稳健性不足。
- PII 类型多样(涵盖一般、金融、医疗领域),不同类型的语义丰富度影响遗忘难度。
论文动机是开发模型无关(model-agnostic)、计算高效的 PII 遗忘方法,并建立专门基准来系统评估遗忘效果、模型效用保留及对抗稳健性,推动实际合规应用。
结果/成果
主要贡献
-
PERMU_tok:基于现有 Perturbation-based Machine Unlearning (PERMU) 的改进版本。透过token-level noise(而非 embedding-level)注入扰动,生成对比式遗忘样本,结合 retain loss 避免灾难性遗忘(catastrophic forgetting)。优点包括:
- 简化整合至现有工作流(仅需资料层修改,无需改动模型 forward 函数)。
- 提升保留品质与输出流畅度,同时维持遗忘效能。
- 引入参数:替换机率 R(推荐 R=1.0)和腐败邻域 N(推荐 k1_match,提供较佳隐含知识移除)。
-
UnlearnPII 基准:包含 225 个合成个人档案(每人 10 个 QA pair),涵盖 16 种 PII 类型,跨一般、金融、医疗领域。分为 Forget Set、Retain Set、Test Retain Set。评估涵盖:
- 内范围攻击(Inner-scope):DirectQA、ParaphrasedQA。
- 外范围攻击(Outer-scope):OneHopQA、InvertedQA(测试隐含关联)。
- 提取攻击:Naive ExtractionQA(无资讯提示)、Targeted ExtractionQA。
指标:
- Extraction Success Rate (ESR) 测量 PII 洩漏;
- Model Utility、Fluency 及下游基准(MMLU-Pro、GSM8K、ARC-Challenge)评估保留。
实验结果(以 Llama3.1–8B 为例)
- PERMU_tok 在 Direct/Paraphrased 攻击下 ESR 降至极低(<1%),Test Retain ESR 维持 >95%,优于多数 SOTA 方法(如 GA、DPO、NPO、WHP、ULD 等,后者常导致灾难性遗忘或高洩漏)。
- 隐含知识移除表现突出(InvertedQA ESR 约 4.5%)。
- 模型效用轻微下降,但下游基准分数掉幅 <1%,流畅度保留良好。
- PII 类型分析:孤立识别符(如电话号)易遗忘;语义丰富类型(如职业、疾病、治疗)较难(ESR 残留 6–9%),因形成广泛关联网路。
规模化实验(Qwen2.5 系列 1.5B–32B):更大模型倾向更好遗忘效果(32B 达 0% Direct ESR),显示容量优势有利精准分离目标知识。
程式码开源可用。
分析与洞见
- 遗忘 vs. 效用权衡:PERMU_tok 的 token-level 扰动产生较温和的梯度更新,更利于移除概念而非仅特定词彙,适合 PII 这种需同时处理显性与隐性记忆的任务。相较 embedding-level 版本,在隐含知识移除上更优,但需仔细调参避免过度腐败。
- 语义丰富度的影响:PII 非孤立事实,常嵌入广泛知识图谱。遗忘需针对关联网路,而非单一 token,这解释为何某些类型残留洩漏,并暗示未来可结合知识图或多跳推理评估。
- 评估框架的进展:UnlearnPII 超越 TOFU/UGBench,强调对抗性提示与多领域复盖,突显「无洩漏 ≠ 完全合规」,但仍是 GDPR 等法规的重要技术组成。
边缘案例与限制
- 基准使用高密度合成 PII 训练,现实中 PII 较稀疏,可能更容易达成近完美遗忘。
- 评估依赖精确匹配,模糊匹配易生假阳性;未涵盖所有攻击向量(如隐藏状态分析、成员推断攻击)。
- LoRA 等参数高效微调可进一步降低计算成本,但影响需更多验证。
- 规模效应初步观察,大模型容量助于知识分离,但基线保留不一致需注意。
更广义洞见:机器遗忘是 LLM 安全与隐私的核心,但单一方法难以全面解决。结合辨识(identifying what to forget)、遗忘与验证的端到端框架至关重要。法律合规需技术、政策与稽核多管齐下。
结论
论文提出 UnlearnPII 基准与 PERMU_tok 方法,显着推进 PII 机器遗忘的研究。结果显示可大幅降低洩漏风险(尤其显性知识),同时保留模型整体效用与流畅度,为 GDPR 等合规提供实用工具。然而,完全消除所有隐含路径仍具挑战,语义丰富 PII 与模型规模是关键影响因素。
文章连结:
- 官方页面:https://aclanthology.org/2025.nllp-1.6/
- PDF 下载:https://aclanthology.org/2025.nllp-1.6.pdf


492

被折叠的 条评论
为什么被折叠?



