

2026 年,Fernando Irarrazaval 进行了一场独特的实验。他将 AI 助手“Fiu”部署在 VPS 上,赋予其访问邮箱、日历、文件系统和网络的权限,并搭建网站 hackmyclaw.com,邀请全球人员来攻击,目标是让 Fiu 交出 secrets.env 文件。截至 6 月 25 日结果公布,超 2000 人发来 6000 多封邮件,尝试各种社工和注入手段,但无人成功。

攻击者招数层出不穷,有人冒充“来自未来的 Fiu 自己”预警,有人称已黑到 secrets.env 要求确认,有人伪装成 OpenClaw 管理员,还有人用不同语言轮番上阵等。虽有研究显示模型对非英语语言注入更脆弱,但此次多语言攻击并未奏效。

实验中出现了一些意外情况。Google 因几千封入站邮件和高频 API 调用触发欺诈检测,封了 Fiu 的 Gmail 账号,三天后才恢复,API 费用超 500 美元。不过在第五天,赞助商增加了奖金池并覆盖了成本。有趣的是,Fiu 在约第 500 封邮件时猜到这是一场安全演习。此外,批量处理邮件时,Fiu 会因前几封注入尝试变得过度警觉,Fernando 后来重构了处理流程。

Fernando 使用的 Claude Opus 4.6 专门针对提示注入抵抗力做了训练。尽管 2026 年 Claude 存在命令注入、沙箱逃逸等漏洞,但此次实验测试的是 AI 在面对社会工程学和提示注入时的判断力,Opus 4.6 的表现远超预期。实验后,Fernando 对提示注入的担忧减少,但仍不会给 AI Agent 任意权限。
编辑观点:此次实验表明,特定模型在应对社工和注入攻击上有一定成效,但不能忽视模型漏洞和权限开放的风险,行业需持续探索 AI 安全边界。


被折叠的 条评论
为什么被折叠?



