Claude Fable 5 发布,这是 Anthropic 最强的模型,你现在就能用

Anthropic 发布了 Claude Fable 5,一款 Mythos 级模型加上安全护栏后对所有人开放。能力超过此前所有 Claude 模型,价格不到 Mythos Preview 的一半。
嗨,我是小开ALSKai,让我们一起用AI做点有趣的事。🌿
6 月 9 号,Anthropic 发布了 Claude Fable 5。

但公告里还提了另一个名字,Claude Mythos 5。它俩什么关系?底层是同一个模型,都属于 Mythos 级。Mythos 是 Anthropic 内部对最强模型线的称呼,比 Opus 高一个等级。今年 4 月的 Claude Mythos Preview 是这条线的第一款,当时只给合作方用。
Fable 5 是这个 Mythos 级模型加上安全护栏之后的版本,给你给我给所有人用。Mythos 5 是把部分安全护栏去掉之后的版本,目前只给 Project Glasswing 的网络安全合作方用,很快会扩展到一部分生物研究者。
差别就这么点。同一个模型,两套护栏设置。

能力有多强
Anthropic 的说法是在所有已测的 AI 能力基准上,Fable 5 超过了此前所有 Anthropic 模型。任务越长越复杂,领先幅度越大。
Stripe 用一个 5000 万行的 Ruby 代码库做测试,Fable 5 一天完成了一个需要团队手动做两个多月的迁移。Stripe 的原话是把几个月压缩成了几天。(5000 万行代码,一天跑完?有点离谱了哥们 你少个 0 我也会信的😭)

SWE-Bench Pro 测的是 AI 独立解决 GitHub issue 的能力。Fable 5 80.3 分,Opus 4.8 69.2,GPT 5.5 58.6。Fable 5 领先 Opus 4.8 有 11 分。
FrontierCode 更接近真实工程的样子,AI 要像工程师一样规划、写代码、调试、迭代。Fable 5 29.3 分,Opus 4.8 13.4,GPT 5.5 只剩 5.7。Fable 5 的分数是 Opus 4.8 的两倍多,是 GPT 5.5 的五倍。(这已经不能用"领先一代"来形容了)
在 Cognition 的 FrontierCode 编程评测里,Fable 5 即使中等算力配置也拿了最高分。Cursor 说它是 CursorBench 上最强的模型,GitHub 说它的自主性和可靠性超过了之前的基准,Replit 说它几乎把基础用例跑满了,用更少的 token 就能搭出应用。
写代码强,这在意料之中。公告发出来当天我就切到 Fable 5 试了试。
想在 Claude Code 里用上也很简单。先在终端跑 claude update 把版本拉上来,当前的 Claude Code 版本是 2.1.170。

然后输入 /model claude-fable-5,点击 yes,这里点击了 yes 之后有可能会看到上下文炸了。不要担心,用/compact压缩一下,就能用上当前最强的 Claude Fable 5 模型了。


我先拿它审了一套自己维护了大半年的工作流配置。这套东西中间改过好几次,自认为已经挺干净了。Fable 5 扫了一遍,翻出来的问题比 Opus 4.8 多了一截,而且没有那种"看起来是问题其实不是"的误报。

接着让它重构一个前后端加数据库的完整网站。讨论之后删了 20% 的代码,项目照样跑。代码少了五分之一,功能没少。这说明它不是乱删,是真看懂了项目骨架,知道哪些是冗余哪些是命脉。(属于是铲猫砂了,铲了一堆
让我更在意的是另外几个能力。
视觉。Fable 5 能从科研图表里提取精确数字,能从截图重建网页应用的源码。之前玩宝可梦 FireRed 需要一套复杂的辅助系统,Fable 5 只用最简视觉就能跑通。(视频里 50 分钟打通关了宝可梦,纯 Fable5!)
长上下文记忆。它在百万 token 的上下文中不会走神,还会用自己的笔记改进输出。打游戏《杀戮尖塔》时,持久化的文件记忆让它的表现比 Opus 4.8 提高了三倍,通关率也高了三倍。
知识工作。在 Hebbia 的金融分析基准测试里第一个突破 90%,文件推理、图表解读和问题解决都有明显提升。量化交易公司 IMC 说它几乎在所有交易分析评测中都拿了高分。
Mythos 5 单独做的事
这部分 Fable 5 因为安全限制接触不到,但值得知道 Mythos 5 的能力边界在哪。
药物设计。Mythos 5 把蛋白质设计流程加速了十倍,从结合位点选择、工具选择执行到失败恢复,全程不用人类帮忙,效果持平甚至超过熟练操作者。14 个蛋白质靶点中有 9 个产出了强候选药物,正在进一步研究中。

分子生物学假说。Mythos 5 是 Anthropic 第一个能持续产出新颖科学假说的模型。和 Opus 级模型做盲测对比,科学家 80% 的情况下选了 Mythos 5 的假说。其中一个关于大肠杆菌蛋白机制的假说,已经被外部实验室独立验证了。
基因组学。Mythos 5 自主做了一个多星期的研究,收集了 138 个物种的单细胞数据,自己设计训练了一个 ML 模型,性能超过了 Science 期刊近期发表的一篇论文,模型参数只有对方的百分之一。(没人盯着,自己跑了一周,自己建模,跑赢了顶刊论文。这个自主性本身比结果更值得关注)
安全怎么做的
这也是这次发布最不一样的地方。Fable 5 的安全机制走了另一条路,不回绝,回退。
它内置了三层安全分类器,分别盯着网络安全、生物化学和大规模蒸馏这三个领域。分类器触发后,请求不会收到拒绝,交给 Claude Opus 4.8 处理。
拒绝等于告诉攻击者这里有东西,回退等于告诉攻击者换条路走。思路不一样。
Anthropic 说平均只有不到 5% 的会话会触发回退,但也承认调得比较保守,有时候无害请求也会被拦住。(其实有点敏感肌了
网络安全防护上,外部红队和漏洞赏金测试了超过 1000 小时,没找到通用越狱方法。所谓通用越狱,就是能绕开所有安全限制的手段。有合作方测试了 30 种公开越狱技术,Fable 5 没有执行任何有害的单轮网络攻击规划请求。
生物化学方面,Fable 5 目前对大部分相关请求都回退到 Opus 4.8。但 Anthropic 宣布几周内会开放一个信任访问计划,让一小批生命科学研究者在去掉生化限制的情况下使用 Fable 5,网络安全限制保留。
还有一个新机制是针对蒸馏的,检测大规模提取模型能力用于训练竞品模型的行为,特别是来自其他国家的尝试。
多少钱,怎么用
Fable 5 的 API 定价是每百万输入 token 10 美元,输出 50 美元。不到 Mythos Preview 价格的一半。
即日起通过 API 和消费型企业计划就能用。Pro、Max、Team 和按席位的企业计划在 6 月 22 日前免费使用 Fable 5,之后会需要消耗使用额度。Anthropic 说等算力够用后会恢复为标准计划标配。
Mythos 5 目前只对 Project Glasswing 的网络安全合作伙伴开放,很快扩展到部分生物研究者。
还有个容易被忽略的变化。Mythos 级模型的所有流量现在必须保留 30 天,不做训练用,有独立的隐私保护措施包括访问日志,到期删除。Anthropic 说这是为了防御新型攻击和减少误判。
能力越强,监控越严。
如果对你有用,欢迎关注我,让我们一起用 AI 做点有趣的事。🌿
270

被折叠的 条评论
为什么被折叠?



