文章总结与翻译
一、主要内容
本文聚焦预训练语言模型(PLMs)在微调阶段面临的后门攻击问题,提出一种基于“蜜罐模块”(Honeypot Module)的后门防御策略,核心目标是在微调数据集含毒样本的情况下,仍能训练出无后门的模型。
核心背景
后门攻击通过在微调数据集中注入少量含触发词、句子或句法/风格修改的毒样本,使模型在正常任务上表现正常,但遇到触发信号时会产生恶意预测。现有防御方法存在依赖干净数据集、训练流程复杂或防御效果有限等问题。
关键发现
PLMs的低层特征包含足够识别后门触发信号的信息,但缺乏完成原始任务所需的语义信息;而后门任务仅需捕捉表面触发特征,比原始语义任务更易学习。
方法设计
- 蜜罐模块构建:在PLMs低层(如第1层)添加紧凑分类器,利用广义交叉熵(GCE)损失使其快速过拟合毒样本,专门吸收后门功能。
- 权重调整机制:任务分类器采用加权交叉熵(WCE)损失,对蜜罐模块高置信度分类的样本(大概率为毒样本)分配低权重,对蜜罐难以分类的样本(大概率为干净样本)分配高权重,引导模型专注原始任务。
- 训练流程:先对蜜罐模块进行预热训练,使其具备捕捉后门的能力,再联合训练蜜罐与任务分类器,最终移除蜜罐模块得到无后门模型。

订阅专栏 解锁全文

159

被折叠的 条评论
为什么被折叠?



