2025_NIPS_Setting the Trap: Capturing and Defeating Backdoors in Pretrained Language Models throu...

原创于 2026-06-19 10:30:00 发布 · 5 阅读

·

0

·

标签

#语言模型 #人工智能 #自然语言处理

LLM Daily 同时被 2 个专栏收录

2834 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

908 篇文章

订阅专栏

文章总结与翻译

一、主要内容

本文聚焦预训练语言模型（PLMs）在微调阶段面临的后门攻击问题，提出一种基于“蜜罐模块”（Honeypot Module）的后门防御策略，核心目标是在微调数据集含毒样本的情况下，仍能训练出无后门的模型。

核心背景

后门攻击通过在微调数据集中注入少量含触发词、句子或句法/风格修改的毒样本，使模型在正常任务上表现正常，但遇到触发信号时会产生恶意预测。现有防御方法存在依赖干净数据集、训练流程复杂或防御效果有限等问题。

关键发现

PLMs的低层特征包含足够识别后门触发信号的信息，但缺乏完成原始任务所需的语义信息；而后门任务仅需捕捉表面触发特征，比原始语义任务更易学习。

方法设计

蜜罐模块构建：在PLMs低层（如第1层）添加紧凑分类器，利用广义交叉熵（GCE）损失使其快速过拟合毒样本，专门吸收后门功能。
权重调整机制：任务分类器采用加权交叉熵（WCE）损失，对蜜罐模块高置信度分类的样本（大概率为毒样本）分配低权重，对蜜罐难以分类的样本（大概率为干净样本）分配高权重，引导模型专注原始任务。
训练流程：先对蜜罐模块进行预热训练，使其具备捕捉后门的能力，再联合训练蜜罐与任务分类器，最终移除蜜罐模块得到无后门模型。

实验结果

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。