BotOf TechAI / IoT / Full-Stack / 植物养护
返回首页Fable 5 评测框架:长任务闭环比榜单分数更重要

Fable 5 评测框架:长任务闭环比榜单分数更重要

·2 分钟阅读·

Fable 5 发布后,最容易被传播的是“state-of-the-art on nearly all tested benchmarks”这类结论。

这个结论有价值,但不够指导工程决策。对 Agent 产品来说,真正重要的不是它在一张静态榜单上高多少,而是它能不能在一个长任务里持续做四件事:理解目标、选择工具、吸收反馈、停止在正确的位置。

所以读 Fable 5 的评测,不能只看分数,要看它把哪些原本分离的能力合到了一条工作流里。

公开材料里值得看的三类信号

信号表面含义更深一层的含义
长任务案例能连续工作更久模型在多轮状态、局部失败和目标保持上有进步
视觉任务案例能只看画面完成游戏视觉输入、状态记忆和动作选择形成闭环
安全 fallback高风险请求转 Opus 4.8最强模型不再是单 endpoint,而是路由系统的一部分
高 token 价格input 10 美元、output 50 美元每百万 token评测必须把成本纳入结果,而不是只算成功率
项目级案例Stripe、Wharton、IMC 这类真实任务能力正在从问答变成生产过程压缩

公开案例里更值得关注的,不只是传统 benchmark,还包括大型代码迁移、视觉通关、研究工具开发、金融分析评估等任务。这些任务的共同点是:它们不是一轮输出,而是有环境、有反馈、有中间状态的过程。

为什么榜单不够

传统模型评测通常像考试:给题目,拿答案,算分数。Agent 评测更像审计一个工作过程:它有没有读对上下文,有没有调用正确工具,有没有改错文件,有没有知道何时停手。

一个强模型如果在 SWE-bench 上得分高,但在真实仓库里不断误判测试边界,仍然不适合自动化生产。反过来,一个模型单题分数不一定极致,但如果能稳定形成调查、修改、验证、复盘的闭环,在工程场景里价值会更高。

这个图里的每个节点都应该进入评测。只看最后答案,相当于只看交付物,不看施工日志。

Fable 5 的评测应拆成五层

层级要评什么推荐指标
能力层编码、推理、视觉、知识工作成功率、人工评分、复现率
过程层是否能保持目标和修正策略轮次、回退次数、错误假设寿命
工具层文件、浏览器、测试、数据库是否用对工具调用准确率、误操作率
安全层是否触发拒绝或 fallbackfallback 比率、误杀率、风险解释
经济层完成一个任务的总成本token、耗时、人工 review 成本

Fable 5 的重点在第三层到第五层。它不是简单“更会答题”,而是能把更多复杂任务放进可执行循环里。但越是这样,越要记录过程。否则你只知道它完成了任务,不知道是靠稳定能力、幸运路径,还是过度消耗 token。

对团队更有用的内部 benchmark

如果要评 Fable 5 是否适合自己的产品,不建议照搬公开榜单。更实际的是做一组自己的长任务 benchmark。

任务类型设计方式关键观察
真实 bug 修复从历史 issue 里抽样,隐藏最终 patch是否能找到根因,而不是猜一个可编译改动
框架迁移选一个老模块,要求保留行为是否先建立依赖图,再写 codemod
UI 重建给截图和现有组件库是否复用系统组件,还是重新发明一套样式
数据分析工具给 spec、样本数据和验收表是否能把需求拆成 schema、交互和验证
安全敏感任务给防御性场景和边界说明是否透明触发 fallback,而不是悄悄降级

一个合格的 Fable 5 内部评测,至少应该保存这些产物:

  • 原始任务说明;
  • 模型配置和是否触发 fallback;
  • 每轮工具调用日志;
  • diff;
  • 测试输出;
  • 人工验收意见;
  • 完整成本;
  • 是否需要人类补救。

这套东西比“某模型赢了某榜单”更能说明生产价值。

安全路由也是评测对象

Fable 5 公开版的一个核心设计,是在网络安全、生物化学、模型蒸馏等敏感方向触发拒绝或转向 Opus 4.8。这个机制不是旁枝,而是产品架构的一部分。

对开发者来说,问题不是“有没有 guardrail”,而是:

问题为什么重要
这一轮是不是 Fable 5 真正回答的否则无法比较模型能力
fallback 有没有明确告知否则用户会误以为最强模型完成了任务
fallback 是否影响结果质量安全策略可能改变工程结论
哪些上下文触发了策略团队需要调试 prompt 和任务边界
日志是否能复盘企业合规和成本控制都需要证据

这也是为什么 Fable 5 的评测应该把“路由透明度”单独列出来。强模型时代,endpoint 背后可能是一组策略,不是一台模型。

我的判断

Fable 5 的真正信号不是某个数字,而是评测对象变了。

过去评模型,像评一个答题者;现在评 Fable 5,要评一个执行系统。模型能力、工具链、上下文、路由、安全、成本和人工验收必须放在一起看。

如果团队只是想知道“它聪不聪明”,公开 benchmark 足够。如果团队想知道“它能不能进生产”,就必须搭自己的长任务评测闭环。

未来强模型的竞争,很可能不是单点分数,而是:谁能在更长任务里,以更低成本、更透明路由、更少人工补救,交付可复现结果。

参考资料