SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models

文章主要内容与创新点总结

核心结论

该论文是一篇关于大语言模型(LLMs)提示词安全的系统性研究(SoK),通过构建分类体系、标准化评估工具、释放大规模数据集,解决了当前领域研究碎片化的问题,为LLM提示词安全的攻击、防御及漏洞分析提供了统一框架。

主要内容

  1. 研究背景:LLMs已广泛应用于多领域,但越狱提示词可绕过模型对齐机制,诱导产生有害输出,且当前研究在定义、威胁模型、评估标准上存在差异,阻碍了系统性进展。
  2. 三大核心分类体系
    • 攻击技术分类:按黑盒/白盒访问模式划分,涵盖提示词修改、优化算法、多轮操纵等具体技术。
    • 防御方法分类:分为检测(输入/输出/内部状态检测)和缓解(输入处理、模型训练、输出处理等)两大类。
    • 模型漏洞分类:梳理了格式利用、指令过度依赖、心理操纵等9类固有漏洞。
  3. 关键资源与工具
    • 释放JailbreakDB数据集,包含44.5万条越狱提示词和109.4万条良性提示词,为研究提供数据支撑。
    • 开发PromptSecurity平台,支持攻击、防御、模型的模块化组合与标准化评估。
  4. 实验发现:本地模型的攻击成功率普遍高于API模型;Gemini 2.5-Flash、GPT-4o等API模型的基线安全性更
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值