刚刚, Arena全新的Agent, Arena名为「智能体竞技场」的榜单公布了!
原本处于神话级别的Claude Fable 5, 一下子就登上了顶峰, 将曾经的王者GPT-5.5, 以及自家同门派的Opus-4.8, 一同给击败了, 使其跌落下去。

有数据表明, Fable 5达成了高达百分之十一点二的「综合净提升」。
这一数据,一举创下了该榜单有史以来的最大分差纪录!

更加让人意想不到的是, 在Vals AI三方进行的评测里, 、Fable 5几乎于所有的评测当中都处在第一位。

发生才仅仅24时, Claude Fable 5此番真的够极为厉害到令人恐惧!
Claude Fable 5在断层方面排名第一, 它创造下了AI历史上的最大分差, 就是这样。
置于Agent Arena的榜单之上, 从中拆解出五个信号用以给模型打分, Fable 5于极为艰难的两项之中, 推开彰显恐怖的差距。
其一乃是, 对任务成功率予以确认(此成功率为18.2%);其二则是, 好评与投诉之间的比例情况(此比例为30.6%)。
下面这张图开云app官方最新下载,足以解释Fable 5碾压级的统治力。

也就是说, 于「可不可以将活计做完、用户是不是感到满意」这两项最为近似真实工作的指标方面, Fable 5呈现出断崖式的领先态势。
再去看那单项能力, Fable 5它同样是厉害得好似杀疯了一般, 直接就把Code Arena以及Text Arena这两大榜单的王座给全部包揽了。
特别特别是编码来说, 它疯狂包揽了占据百分之七十二比例的前端对抗胜利几率, 到最后终结于令人恐惧的九十八分的差距, 独自远远领先, 实实在在地上演一种维度差别的打击。



另外,Fable 5在工具幻觉项也是排名第一。

不仅如此,各大权威跑分也在疯狂印证着它的统治力。
于Artificial Analysis智能化指数里头, Fable 5获取了64.9分从而登上首位, 将第二名远远甩开接近5分的差距呢。
换个说法来讲, 在用于衡量真实工作任务情况的GDPval - AA榜单之中, Elo大幅度成功冲破了1932这个数值, 把Opus 4.8远远地抛在了后面, 重新塑造了该行业所具有的极限水准, 这显得更加夸张。

前端编码,太能打了
不要觉得, 它仅仅是会在「应试」方面, 获取高分数, Claude Fable 5在实际操作的时候, 一样具备很强的能力, 这绝对是名副其实。
接下来,上一道硬核视觉题:模拟流体墨水消融。
把这类动态用作去探寻模型界限的, 然而Fable 5一次就弄好了, 简洁干脆, 展现力极其充分。

比如, 使Fable 5去制作一个Windows, 令人意想不到的是, 它直接产出了一整套能够使用的网页版Windows结果呈现在眼前这样一个情况, ——。
登录、通知、Edge、空当接龙,一应俱全。
会额外赠送一个Copilot, 会额外赠送一个Minecraft克隆, 会有视觉玩法, 还会有几个3D世界, 这般情形到底哪里是在打造一个系统, 简直就是实实在在打造出了一个生态。
并且呢, 二零一一年度的游戏, 也就是上古卷轴, 仅仅只要一句话, 竟然就叫 Fable 5 它自己给召唤出来了。
游戏工作室们,可以准备下班了。

让人感到惊艳的是, Claude Fable 5(max)将「我的世界」引入到了 HTML 之中, 其呈现出来的效果超乎常人想象地好。
方块、世界、玩法都立住了开运真人app下载苹果版,开运真人app下载开云真人app,开云真人app地址,它甚至自己加了背景音乐。
让Fable 5再赋予可视化神经网络的注意力机制, 呈现其一小型语言模型如何开展故事生成行为。
最终呈现的状况实在是超乎想象地离谱, 它完成制作的竟然是一个实实在在能够具备运行能力的模型, 当下这个模型正借助WebGPU在我的浏览器当中进行着实时的运行操作。
注意力的流动、文字的生成,全用粒子和物理在眼前铺开。

仅24小时,手搓一个模拟器
在Mechanize评测这个过程里边, Fable 5同样, 在GBA Eval这个项目当中, 拿下了74.5%的最高分, 是这样的情况。

并且, 它只需二十四个小时, 就在直接通过手搓的方式, 制作出了一个可以让所有游戏都顺利完美运行的游戏模拟器。
用了不到2小时,战绩便超越了Opus 4.8。
Token爆冲2050亿,价格翻倍
作为第一个公开亮相的Mythos级模型, Fable 5诞生之后, 其使用量一下子就超过了自家的主打旗舰产品, 有了显著的超越。
今天,OpenRouter给出了最新数据——
在发布后的24小时之内, Fable 5每日所处理的Token数量飙升至大约2050亿, 然而Opus 4.8的这一数量则是1470亿。

更加关键重要的是, 那就是价格。Fable 5的定价是, 每百万Token为10美元 或者50美元, 而这, 整整是Opus 4.8定价的两倍呀。
用量更高,单价翻倍,
沃顿商学院的CS教授Ethan Mollick明确表示, Fable开启了一个工作流程, Token紧接着就被快速地消耗殆尽了。

「能力」开始跑赢「控制」
如今, Anthropic的发布情况, 所展现出的那种节奏, 并非仅仅局限于「又有新的模型被推出了」这般单一简单的状态, 而是呈现出一种能够很直观明确地从外部观察到的正在明显加快的趋势。
把这一年的发布时间线摊开看,比任何单项跑分都吓人。
于Opus 4.7至Opus 4.8这段期间, 具体时长是由多达42天所构成 的。然而, 像是在从Opus 4.8延展到Fable 5的这一段进程里, 居然仅仅只是耗用了12天来运转的。
间隔在坍缩,跳变却在变大。

所以, 真正应当盯紧的, 从来都不是某一张榜单里的第一名, 而是这条斜率究竟还能够陡峭多长时间。
随着AI迭代间隔加快, 留给人类去学会“驯服”它的那扇窗, 就会在同样速度下变窄, 就是这样。
参考资料:
https://x.com/arena/status/2064807170714358193?s=20
https://x.com/OpenRouter/status/2064788002606309723?s=20
标签: ClaudeFable5 AI智能体竞技场 最大分差纪录 ValsAI评测 统治力
还木有评论哦,快来抢沙发吧~