2025_NIPS_Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models throu...

文章总结与翻译

一、主要内容

本文聚焦预训练语言模型(PLMs)在微调阶段面临的后门攻击问题,提出一种基于“蜜罐模块”(Honeypot Module)的后门防御策略,核心目标是在微调数据集含毒样本的情况下,仍能训练出无后门的模型。

核心背景

后门攻击通过在微调数据集中注入少量含触发词、句子或句法/风格修改的毒样本,使模型在正常任务上表现正常,但遇到触发信号时会产生恶意预测。现有防御方法存在依赖干净数据集、训练流程复杂或防御效果有限等问题。

关键发现

PLMs的低层特征包含足够识别后门触发信号的信息,但缺乏完成原始任务所需的语义信息;而后门任务仅需捕捉表面触发特征,比原始语义任务更易学习。

方法设计

  1. 蜜罐模块构建:在PLMs低层(如第1层)添加紧凑分类器,利用广义交叉熵(GCE)损失使其快速过拟合毒样本,专门吸收后门功能。
  2. 权重调整机制:任务分类器采用加权交叉熵(WCE)损失,对蜜罐模块高置信度分类的样本(大概率为毒样本)分配低权重,对蜜罐难以分类的样本(大概率为干净样本)分配高权重,引导模型专注原始任务。
  3. 训练流程:先对蜜罐模块进行预热训练,使其具备捕捉后门的能力,再联合训练蜜罐与任务分类器,最终移除蜜罐模块得到无后门模型。

实验结果

    评论
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包

    打赏作者

    UnknownBody

    你的鼓励将是我创作的最大动力

    ¥1 ¥2 ¥4 ¥6 ¥10 ¥20
    扫码支付:¥1
    获取中
    扫码支付

    您的余额不足,请更换扫码支付或充值

    打赏作者

    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值