SoK: Taxonomy and Evaluation of Prompt Security in Large Language Models

原创于 2026-06-23 08:30:00 发布 · 334 阅读

·

17

·

标签

#prompt #语言模型 #大数据

LLM Daily 专栏收录该内容

2852 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

文章主要内容与创新点总结

核心结论

该论文是一篇关于大语言模型（LLMs）提示词安全的系统性研究（SoK），通过构建分类体系、标准化评估工具、释放大规模数据集，解决了当前领域研究碎片化的问题，为LLM提示词安全的攻击、防御及漏洞分析提供了统一框架。

主要内容

研究背景：LLMs已广泛应用于多领域，但越狱提示词可绕过模型对齐机制，诱导产生有害输出，且当前研究在定义、威胁模型、评估标准上存在差异，阻碍了系统性进展。
三大核心分类体系：
- 攻击技术分类：按黑盒/白盒访问模式划分，涵盖提示词修改、优化算法、多轮操纵等具体技术。
- 防御方法分类：分为检测（输入/输出/内部状态检测）和缓解（输入处理、模型训练、输出处理等）两大类。
- 模型漏洞分类：梳理了格式利用、指令过度依赖、心理操纵等9类固有漏洞。
关键资源与工具：
- 释放JailbreakDB数据集，包含44.5万条越狱提示词和109.4万条良性提示词，为研究提供数据支撑。
- 开发PromptSecurity平台，支持攻击、防御、模型的模块化组合与标准化评估。
实验发现：本地模型的攻击成功率普遍高于API模型；Gemini 2.5-Flash、GPT-4o等API模型的基线安全性更

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。