一、文章主要内容总结
该研究聚焦于提示学习范式下,作为少样本学习者的预训练语言模型(PLMs)面临的后门攻击防御问题,核心内容如下:
- 问题背景:提示学习使PLMs无需重训练即可通过少量样本适配下游任务,但该场景下的安全风险尚未被充分探索。现有后门防御方法多针对微调范式设计,依赖充足训练数据和计算资源,无法适配少样本场景的独特挑战(数据稀缺、与提示的复杂交互、计算能力有限)。
- 核心发现:少样本场景中,PLMs极易遭受文本后门攻击——攻击者通过注入含“触发器”(如罕见词、特定句子)的毒样本,使模型在推理时将毒样本误分类到目标类别,而现有防御效果极差。
- 防御方案(MDP):提出掩码差分提示(Masking-Differential Prompting, MDP),一种轻量、可插拔的防御方法。其核心逻辑是:毒样本对随机掩码更敏感(触发器被掩码后,模型预测概率波动显著),而干净样本的掩码敏感性较低。MDP以少量少样本数据为“分布锚点”,通过对比样本在不同掩码下的表示变化,识别毒样本;还可通过优化提示提升干净样本的掩码不变性,进一步增强区分能力。
- 理论与实证验证:
- 理论上,MDP使攻击者陷入“攻击有效性”与“躲避检测”的两难困境——提升攻击效果需增强触发器影响,却会提高掩码敏感性,更易被检测。
- 实证上,在5个基准数据集(SST-2、MR等)和5种代表性攻击(BadNets、AddSent等

订阅专栏 解锁全文

784

被折叠的 条评论
为什么被折叠?



