[论文学习]大型语言模型中个人可识别资讯的机器遗忘技术:UnlearnPII 基准与 PERMU_tok 方法的分析

最新推荐文章于 2026-06-24 23:29:20 发布

原创最新推荐文章于 2026-06-24 23:29:20 发布 · 304 阅读

5 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#学习 #语言模型 #人工智能

论文学习同时被 2 个专栏收录

7 篇文章

订阅专栏

6 篇文章

订阅专栏

Machine Unlearning of Personally Identifiable Information in LLMs (D. Parii et al., NLLP/ACL 2025)

核心问题与动机

大型语言模型（LLMs）在海量网路资料上预训练，常会记忆并重现个人可识别资讯（Personally Identifiable Information, PII），如姓名、电话、地址、银行帐号、医疗资讯等。这不仅引发严重的隐私与伦理问题，也涉及法律合规，例如欧盟 GDPR 的「被遗忘权」（Right to Be Forgotten），要求资料主体有权请求删除其个人资料。

现有挑战包括：

完整重新训练模型成本高昂且不具弹性。
传统机器遗忘（Machine Unlearning）方法多针对一般事实或虚构知识（如 TOFU 基准），较少专注 PII，且忽略隐含知识（implicit knowledge） 的移除（例如透过改述、反向推理或一跳关联仍可推断 PII）。
评估指标常将所有 token 同等看待，忽略 PII 的细粒度洩漏风险，且对抗性攻击（如混淆提示、jailbreak）下的稳健性不足。
PII 类型多样（涵盖一般、金融、医疗领域），不同类型的语义丰富度影响遗忘难度。

论文动机是开发模型无关（model-agnostic）、计算高效的 PII 遗忘方法，并建立专门基准来系统评估遗忘效果、模型效用保留及对抗稳健性，推动实际合规应用。

结果/成果

主要贡献

PERMU_tok：基于现有 Perturbation-based Machine Unlearning (PERMU) 的改进版本。透过token-level noise（而非 embedding-level）注入扰动，生成对比式遗忘样本，结合 retain loss 避免灾难性遗忘（catastrophic forgetting）。优点包括：
- 简化整合至现有工作流（仅需资料层修改，无需改动模型 forward 函数）。
- 提升保留品质与输出流畅度，同时维持遗忘效能。
- 引入参数：替换机率 R（推荐 R=1.0）和腐败邻域 N（推荐 k1_match，提供较佳隐含知识移除）。
UnlearnPII 基准：包含 225 个合成个人档案（每人 10 个 QA pair），涵盖 16 种 PII 类型，跨一般、金融、医疗领域。分为 Forget Set、Retain Set、Test Retain Set。评估涵盖：
- 内范围攻击（Inner-scope）：DirectQA、ParaphrasedQA。
- 外范围攻击（Outer-scope）：OneHopQA、InvertedQA（测试隐含关联）。
- 提取攻击：Naive ExtractionQA（无资讯提示）、Targeted ExtractionQA。
指标：
- Extraction Success Rate (ESR) 测量 PII 洩漏；
- Model Utility、Fluency 及下游基准（MMLU-Pro、GSM8K、ARC-Challenge）评估保留。

实验结果（以 Llama3.1–8B 为例）

PERMU_tok 在 Direct/Paraphrased 攻击下 ESR 降至极低（<1%），Test Retain ESR 维持 >95%，优于多数 SOTA 方法（如 GA、DPO、NPO、WHP、ULD 等，后者常导致灾难性遗忘或高洩漏）。
隐含知识移除表现突出（InvertedQA ESR 约 4.5%）。
模型效用轻微下降，但下游基准分数掉幅 <1%，流畅度保留良好。
PII 类型分析：孤立识别符（如电话号）易遗忘；语义丰富类型（如职业、疾病、治疗）较难（ESR 残留 6–9%），因形成广泛关联网路。

规模化实验（Qwen2.5 系列 1.5B–32B）：更大模型倾向更好遗忘效果（32B 达 0% Direct ESR），显示容量优势有利精准分离目标知识。

程式码开源可用。

分析与洞见

遗忘 vs. 效用权衡：PERMU_tok 的 token-level 扰动产生较温和的梯度更新，更利于移除概念而非仅特定词彙，适合 PII 这种需同时处理显性与隐性记忆的任务。相较 embedding-level 版本，在隐含知识移除上更优，但需仔细调参避免过度腐败。
语义丰富度的影响：PII 非孤立事实，常嵌入广泛知识图谱。遗忘需针对关联网路，而非单一 token，这解释为何某些类型残留洩漏，并暗示未来可结合知识图或多跳推理评估。
评估框架的进展：UnlearnPII 超越 TOFU/UGBench，强调对抗性提示与多领域复盖，突显「无洩漏 ≠ 完全合规」，但仍是 GDPR 等法规的重要技术组成。

边缘案例与限制

基准使用高密度合成 PII 训练，现实中 PII 较稀疏，可能更容易达成近完美遗忘。
评估依赖精确匹配，模糊匹配易生假阳性；未涵盖所有攻击向量（如隐藏状态分析、成员推断攻击）。
LoRA 等参数高效微调可进一步降低计算成本，但影响需更多验证。
规模效应初步观察，大模型容量助于知识分离，但基线保留不一致需注意。

更广义洞见：机器遗忘是 LLM 安全与隐私的核心，但单一方法难以全面解决。结合辨识（identifying what to forget）、遗忘与验证的端到端框架至关重要。法律合规需技术、政策与稽核多管齐下。

结论

论文提出 UnlearnPII 基准与 PERMU_tok 方法，显着推进 PII 机器遗忘的研究。结果显示可大幅降低洩漏风险（尤其显性知识），同时保留模型整体效用与流畅度，为 GDPR 等合规提供实用工具。然而，完全消除所有隐含路径仍具挑战，语义丰富 PII 与模型规模是关键影响因素。

文章连结：

官方页面：https://aclanthology.org/2025.nllp-1.6/
PDF 下载：https://aclanthology.org/2025.nllp-1.6.pdf