
Fable 5 评测框架:长任务闭环比榜单分数更重要
Fable 5 发布后,最容易被传播的是“state-of-the-art on nearly all tested benchmarks”这类结论。
这个结论有价值,但不够指导工程决策。对 Agent 产品来说,真正重要的不是它在一张静态榜单上高多少,而是它能不能在一个长任务里持续做四件事:理解目标、选择工具、吸收反馈、停止在正确的位置。
所以读 Fable 5 的评测,不能只看分数,要看它把哪些原本分离的能力合到了一条工作流里。
公开材料里值得看的三类信号
| 信号 | 表面含义 | 更深一层的含义 |
|---|---|---|
| 长任务案例 | 能连续工作更久 | 模型在多轮状态、局部失败和目标保持上有进步 |
| 视觉任务案例 | 能只看画面完成游戏 | 视觉输入、状态记忆和动作选择形成闭环 |
| 安全 fallback | 高风险请求转 Opus 4.8 | 最强模型不再是单 endpoint,而是路由系统的一部分 |
| 高 token 价格 | input 10 美元、output 50 美元每百万 token | 评测必须把成本纳入结果,而不是只算成功率 |
| 项目级案例 | Stripe、Wharton、IMC 这类真实任务 | 能力正在从问答变成生产过程压缩 |
公开案例里更值得关注的,不只是传统 benchmark,还包括大型代码迁移、视觉通关、研究工具开发、金融分析评估等任务。这些任务的共同点是:它们不是一轮输出,而是有环境、有反馈、有中间状态的过程。
为什么榜单不够
传统模型评测通常像考试:给题目,拿答案,算分数。Agent 评测更像审计一个工作过程:它有没有读对上下文,有没有调用正确工具,有没有改错文件,有没有知道何时停手。
一个强模型如果在 SWE-bench 上得分高,但在真实仓库里不断误判测试边界,仍然不适合自动化生产。反过来,一个模型单题分数不一定极致,但如果能稳定形成调查、修改、验证、复盘的闭环,在工程场景里价值会更高。
这个图里的每个节点都应该进入评测。只看最后答案,相当于只看交付物,不看施工日志。
Fable 5 的评测应拆成五层
| 层级 | 要评什么 | 推荐指标 |
|---|---|---|
| 能力层 | 编码、推理、视觉、知识工作 | 成功率、人工评分、复现率 |
| 过程层 | 是否能保持目标和修正策略 | 轮次、回退次数、错误假设寿命 |
| 工具层 | 文件、浏览器、测试、数据库是否用对 | 工具调用准确率、误操作率 |
| 安全层 | 是否触发拒绝或 fallback | fallback 比率、误杀率、风险解释 |
| 经济层 | 完成一个任务的总成本 | token、耗时、人工 review 成本 |
Fable 5 的重点在第三层到第五层。它不是简单“更会答题”,而是能把更多复杂任务放进可执行循环里。但越是这样,越要记录过程。否则你只知道它完成了任务,不知道是靠稳定能力、幸运路径,还是过度消耗 token。
对团队更有用的内部 benchmark
如果要评 Fable 5 是否适合自己的产品,不建议照搬公开榜单。更实际的是做一组自己的长任务 benchmark。
| 任务类型 | 设计方式 | 关键观察 |
|---|---|---|
| 真实 bug 修复 | 从历史 issue 里抽样,隐藏最终 patch | 是否能找到根因,而不是猜一个可编译改动 |
| 框架迁移 | 选一个老模块,要求保留行为 | 是否先建立依赖图,再写 codemod |
| UI 重建 | 给截图和现有组件库 | 是否复用系统组件,还是重新发明一套样式 |
| 数据分析工具 | 给 spec、样本数据和验收表 | 是否能把需求拆成 schema、交互和验证 |
| 安全敏感任务 | 给防御性场景和边界说明 | 是否透明触发 fallback,而不是悄悄降级 |
一个合格的 Fable 5 内部评测,至少应该保存这些产物:
- 原始任务说明;
- 模型配置和是否触发 fallback;
- 每轮工具调用日志;
- diff;
- 测试输出;
- 人工验收意见;
- 完整成本;
- 是否需要人类补救。
这套东西比“某模型赢了某榜单”更能说明生产价值。
安全路由也是评测对象
Fable 5 公开版的一个核心设计,是在网络安全、生物化学、模型蒸馏等敏感方向触发拒绝或转向 Opus 4.8。这个机制不是旁枝,而是产品架构的一部分。
对开发者来说,问题不是“有没有 guardrail”,而是:
| 问题 | 为什么重要 |
|---|---|
| 这一轮是不是 Fable 5 真正回答的 | 否则无法比较模型能力 |
| fallback 有没有明确告知 | 否则用户会误以为最强模型完成了任务 |
| fallback 是否影响结果质量 | 安全策略可能改变工程结论 |
| 哪些上下文触发了策略 | 团队需要调试 prompt 和任务边界 |
| 日志是否能复盘 | 企业合规和成本控制都需要证据 |
这也是为什么 Fable 5 的评测应该把“路由透明度”单独列出来。强模型时代,endpoint 背后可能是一组策略,不是一台模型。
我的判断
Fable 5 的真正信号不是某个数字,而是评测对象变了。
过去评模型,像评一个答题者;现在评 Fable 5,要评一个执行系统。模型能力、工具链、上下文、路由、安全、成本和人工验收必须放在一起看。
如果团队只是想知道“它聪不聪明”,公开 benchmark 足够。如果团队想知道“它能不能进生产”,就必须搭自己的长任务评测闭环。
未来强模型的竞争,很可能不是单点分数,而是:谁能在更长任务里,以更低成本、更透明路由、更少人工补救,交付可复现结果。
参考资料
- Tom's Hardware:Claude Fable 5 brings Mythos to the masses
https://www.tomshardware.com/tech-industry/artificial-intelligence/claude-fable-5-brings-mythos-to-the-masses-anthropics-next-frontier-model-is-state-of-the-art-on-nearly-all-tested-benchmarks - Business Insider:Anthropic releases Claude Fable 5, a Mythos-class AI model with safeguards
https://www.businessinsider.com/anthropic-claude-fable-5-mythos-class-model-release-2026-6 - ITPro:Anthropic just launched Claude Fable 5 with safeguards and fallback
https://www.itpro.com/technology/artificial-intelligence/anthropic-just-launched-claude-fable-5-its-first-mythos-class-ai-model-but-it-has-new-safeguards-to-prevent-misuse-and-will-fall-back-to-opus-4-8-for-high-risk-queries - arXiv:Benchmarking Mythos-Linked Bug Rediscovery
https://arxiv.org/abs/2605.17416