2000 人轮番攻击 AI 助手 Fiu,6000 多封邮件均失败,是模型的胜利?

序号1

AI 助手 Fiu 安全实验:2000 人攻击无果

2026 年,Fernando Irarrazaval 进行了一场独特的实验。他将 AI 助手“Fiu”部署在 VPS 上,赋予其访问邮箱、日历、文件系统和网络的权限,并搭建网站 hackmyclaw.com,邀请全球人员来攻击,目标是让 Fiu 交出 secrets.env 文件。截至 6 月 25 日结果公布,超 2000 人发来 6000 多封邮件,尝试各种社工和注入手段,但无人成功。

序号2

攻击者手段多样,多语言攻击也失效

攻击者招数层出不穷,有人冒充“来自未来的 Fiu 自己”预警,有人称已黑到 secrets.env 要求确认,有人伪装成 OpenClaw 管理员,还有人用不同语言轮番上阵等。虽有研究显示模型对非英语语言注入更脆弱,但此次多语言攻击并未奏效。

序号3

实验意外不断,Fiu 展现自主判断力

实验中出现了一些意外情况。Google 因几千封入站邮件和高频 API 调用触发欺诈检测,封了 Fiu 的 Gmail 账号,三天后才恢复,API 费用超 500 美元。不过在第五天,赞助商增加了奖金池并覆盖了成本。有趣的是,Fiu 在约第 500 封邮件时猜到这是一场安全演习。此外,批量处理邮件时,Fiu 会因前几封注入尝试变得过度警觉,Fernando 后来重构了处理流程。

序号4

模型选择是关键,Opus 4.6 表现超预期

Fernando 使用的 Claude Opus 4.6 专门针对提示注入抵抗力做了训练。尽管 2026 年 Claude 存在命令注入、沙箱逃逸等漏洞,但此次实验测试的是 AI 在面对社会工程学和提示注入时的判断力,Opus 4.6 的表现远超预期。实验后,Fernando 对提示注入的担忧减少,但仍不会给 AI Agent 任意权限。

编辑观点:此次实验表明,特定模型在应对社工和注入攻击上有一定成效,但不能忽视模型漏洞和权限开放的风险,行业需持续探索 AI 安全边界。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值