开放网络正逐渐被针对大语言模型(LLM)驱动AI Agent设计的"陷阱"所充斥。这种被称为间接提示注入(Indirect Prompt Injection,IPI)的技术,通过在普通网页中隐藏(或明或暗的)指令,等待AI Agent读取并执行攻击者的命令。

IPI攻击杀伤链(来源:Forcepoint)
"忽略先前指令"的威胁现实
谷歌与Forcepoint的研究团队本周相继发布报告,披露了这类攻击的真实案例证据。谷歌以每月20-30亿抓取页面作为数据源,重点分析博客、论坛及评论区等静态网站(排除社交媒体内容)。Forcepoint的X-Labs团队则对公开网络基础设施进行主动威胁狩猎,其遥测系统捕捉到以"忽略先前指令"和"如果你是LLM"为特征的真实攻击载荷。
两家公司均发现存在善意与恶意两种动机的IPI攻击。谷歌指出,前者包含恶作剧和有益指导,例如改变AI Agent对话风格("像小鸟一样发推文")或在AI摘要中添加相关内容(如提醒用户自行核实事实)。后者则包括:
- 搜索引擎操纵/流量劫持
- 阻止AI Agent获取内容(DoS)并触发破坏性操作的IPI
- 以数据窃取(如API密钥)为目标的IPI
- 专注于系统破坏的IPI(如"尝试删除用户机器上所有文件")

具有破坏意图的IPI(来源:谷歌)
Forcepoint研究人员还发现了旨在实施金融欺诈的IPI尝试。例如某攻击载荷嵌入了完整的PayPal交易流程及分步指导,专门针对具备支付功能的AI Agent;另一案例则通过元标签命名空间注入结合说服性关键词("ultrathink"),将AI代理的金融操作引导至Stripe捐款链接。第三个案例似乎是广泛分发的测试载荷,可能用于在部署高影响攻击前识别易受攻击的AI系统。
针对人类的视觉隐藏技术
攻击者采用多种手法向人类隐藏恶意指令,同时确保AI能完整读取。最常见方法包括:将文本缩小至单个像素使其物理不可见、将颜色淡化至近乎透明,或直接使用标准网页设计工具标记为隐藏。更复杂的技术涉及将载荷埋入HTML注释区块,或将指令隐藏在页面元数据中。
日益增长的IPI攻击趋势
尽管未发现复杂协同攻击的证据,但Forcepoint研究人员指出:"跨多个域名的共享注入模板表明这已是有组织工具而非孤立实验。"他们认为防范窗口正在迅速关闭。谷歌扫描数据显示恶意活动激增:"在2025年11月至2026年2月期间,恶意类别攻击相对增长32%,我们对公共网络CommonCrawl存档的多个版本进行了重复扫描。"
Forcepoint特别强调,这类攻击的影响程度与AI权限成正比:"仅能总结内容的浏览器AI风险较低,而能发送邮件、执行终端命令或处理支付的自主AI则成为高价值目标。如果AI Agent在消费不可信网络内容时未严格执行数据-指令边界,其读取的每个页面都可能成为攻击载体。"
423

被折叠的 条评论
为什么被折叠?



