文章主要内容与创新点总结
核心结论
该论文是一篇关于大语言模型(LLMs)提示词安全的系统性研究(SoK),通过构建分类体系、标准化评估工具、释放大规模数据集,解决了当前领域研究碎片化的问题,为LLM提示词安全的攻击、防御及漏洞分析提供了统一框架。
主要内容
- 研究背景:LLMs已广泛应用于多领域,但越狱提示词可绕过模型对齐机制,诱导产生有害输出,且当前研究在定义、威胁模型、评估标准上存在差异,阻碍了系统性进展。
- 三大核心分类体系:
- 攻击技术分类:按黑盒/白盒访问模式划分,涵盖提示词修改、优化算法、多轮操纵等具体技术。
- 防御方法分类:分为检测(输入/输出/内部状态检测)和缓解(输入处理、模型训练、输出处理等)两大类。
- 模型漏洞分类:梳理了格式利用、指令过度依赖、心理操纵等9类固有漏洞。
- 关键资源与工具:
- 释放JailbreakDB数据集,包含44.5万条越狱提示词和109.4万条良性提示词,为研究提供数据支撑。
- 开发PromptSecurity平台,支持攻击、防御、模型的模块化组合与标准化评估。
- 实验发现:本地模型的攻击成功率普遍高于API模型;Gemini 2.5-Flash、GPT-4o等API模型的基线安全性更
订阅专栏 解锁全文

340

被折叠的 条评论
为什么被折叠?



