两个月来一直遮遮掩掩的Anthropic的“Mythos”, 终于降临了, ——。
端上桌的, 是自家有史以来最强悍的大模型旗舰, 它分为两个版本, 一个版本是Claude Fable 5, 另一个版本是Claude Mythos 5。

有着加了防护网版本之称的Fable 5, 可供所有用户使用的Mythos**面向他人开放。
倘若用户所提问题致使风险分类器被触发, 像出现设法让其撰写恶意软件这类状况, 那么系统便会自行实施降级操作, 转而调用上一代Claude Opus 4.8予以回答。
“Mythos”全血版本原汁原味状如“Mythos 5”, 然而仅供少数获信任用户予以使用。
它于网络安全等范畴之内, 解除了那安全方面所设的限制, 其官网宣称它“具备出自纯粹血脉根因的、全球最为顶尖的网络安全攻防以及生物科研能力”!
官方宣称, Fable 5的自行运转时长, 比以往任何Claude模型都长, Mythos 5的自主行进时间 , 也比以往任何Claude模型都长。

小小叹个气?前沿AI,开始进入权限时代了。
并且, 就在Anthropic一本正经地宣称要让所有AI研究马上停下之后, 没过两天……
不知晓Dario究竟是怎么回事儿, 居然也已然开始踏上了奥特曼每次为自家新模型及新产品预先进行营销造势的旧路, 而且还是那般阵仗极大的情形呢。
(我知道A社有自己的道理,但我还是报以一个微笑)。
然而, 依旧存在着, 能让开发者感到比较欣慰的消息, 并非处于技术层面, 这两款新旗舰的API定价, 直接把之前的预览版剔除超过一半以上:
仅需十美元, 每百万输入Token,而每百万输出Token则是五十美元。

好了,咱们迅速进入技术相关环节,冲——
双版本Mythos来了!官方给“Token效率”画了重点
先说个情况。
在官方所发布的日志里, 以及业内进行的评测当中 , 都未曾如同介绍Fable 5那般 , 为Mythos 5去罗列一长串标准的 、公开的Benchmark跑分榜单 , 诸如MMLU 、GSM8K 、SWE - bench这些。
不过且鉴于二者乃是同一底层模型, 实际上两者能够被看成是同一内核的“镜像分身”, 并且基础技术指标全然一致。
因此, 我们唯有暂且先瞧一瞧当下官方途径主要所公开的《神鬼寓言5》的呈现状况。

根据Anthropic自身所讲的内容, Claude Fable 5属于当下最强的公开的Claude, 并且这是Fable系列头一回迈入Mythos级能力。
它所具备的优势主要是集中于几个方向, 这几个方向为软件工程, 还有复杂知识工作, 再接着是视觉方面, 随后还涉及长上下文领域, 另外也包括记忆能力之处, 最后还有生命科学研究范畴。
更为关键之处在于, 任务呈现出越长的态势, 且越具备复杂性, Fable5相较于过往的Claude, 其优势愈发显著, 这表明Fable5的重点并非在于单轮问答能够更为出色, 而是在于它能够承接住长周期任务。
我们可不可以运用数据以及硬核的Demo, 来分析这一代神话级别般存在的模型所具备的统治能力:
软件工程:高难度基准打穿,从“修Bug”到“全自动大军”
一款名为Claude Fable 5的产品, 在一项被称作SWE-bench Pro的评测里, 该评测用于衡量模型解决真实世界且繁杂软件工程问题这项能力, Claude Fable 5取得了80.3%的高分, 有这样的表现。
与之形成对比的是, 竞争对手那边的顶级主力模型GPT - 5.5, 其所获得的分数是58.6%。

这份评测名为Cognition的Frontier Code, 可以说此评测更加侧重于模型究竟能不能够完成困难程度高的编程任务, 并且还要同时满足高质量生产代码库所具备的标准, 在这样的评测里, Fable 5在中等推理强度的情况下, 就已经拿到了前沿模型的最高分。
FrontierCode该基准极难饱和。
然而, 就算是处于“中等努力(Medium effort)”这种模式之下, Fable 5的得分, 在所有前沿模型当中, 也是占据着最高的位置的。

官方给出的第一个典型案例来自Stripe。
在一个有着5000万行Ruby代码库的情况下, Fable 5达成了一次对整个代码库的迁移, 这项工作要是交由一个工程团队去手动完成, 原本是需要两个多月时间的。
Fable 5呢?仅仅用了一天。
另外, 于端到端前端开发基准那ViBench(也就是Vibe - coding benchmark)之上, Fable 5差不多将基础开发用例直接给打到了饱和状态, 达成了真正的“一枪流(One - shot)”来生成应用。
原生视觉:不要脚手架,盲打通关《宝可梦》
知名科技媒体VentureBeat在一篇名为《Anthropic brings Mythos to the masses with Claude Fable 5, its most powerful generally available model ever》的文章当中透露, 在专门聚焦于视觉文件推理的基准测试GDPpdf之上, Fable 5以及Mythos 5在没有借助外部工具的状况之下取得了29.8%的成绩。
换作对比而言, Opus 4.8所得到的分数是22.5%, GPT - 5.5所得到的分数是24.9%, 而Gemini 3.1 Pro所得到的分数则为16.7%。
Anthropic官方推测众人瞧大量数据会觉得单调乏味, 所以推出了Fable 5进行游戏的演示版本, 该版本具备更直观的视觉成效。
从前的Claude模型要是打算玩角色扮演游戏《宝可梦·火红版》, 就得于外部给其配备一套极为繁杂的“脚手架”, 这“脚手架”涵盖地图导航协助、内存游戏状态读取等内容。
现在,Fable 5实现了纯粹的“原生视觉盲打”。
在没有半点地图外挂的情形下, 仅仅靠着一张张原始的游戏屏幕截图, 它完全凭借自身完成推演操作、并执行策略规划, 最终硬是凭借自身努力打通关了整部游戏。
不止这样, 鉴于其具备超长序列的专注程度, 在为它配备了持久化的文件级内存以后, 它于游玩卡牌肉鸽游戏《杀戮尖塔》(Slay the Spire)之际, 表现径直提升了3倍, 抵达最终星体的概率同样猛增3倍。
长上下文和记忆能力重点升级开云真人app官网登录app,开云真人app在线登录,顺手强调了下“Token效率”
长上下文和记忆能力也是这次升级的重点。
Anthropic宣称, Fable 5具备这样的能力, 在百万级Token的长期任务当中, 其能够维持专注, 并且可以借助自身所做笔记对输出予以改进。
官方对SlaytheSpire进行了测试, 在给模型接入持久化文件记忆后, Fable5产生的表现提升幅度成了Opus4.8的三倍那般, 而到达最终章节的频率呢, 同样提升至原来的三倍之多。
这其实是Agent能力里非常底层的一环。
一个长时间能干的活得的机器人, 必得需要记得自个儿做过啥、错过啥、接下来为啥要这么做。要是没拥有个稳固记得住过去经历的, 靠着自我自发去启动办事儿就极易沦为一幕大型的啥都不剩的啥都想不起来的场景。

为此, Anthropic特别强调了Token效率, 这是这代模型的一个关键方向。
越是能长时间自主工作的模型,越会消耗大量Token。
倘若模型其中一边具备很强的能力, 而另一边却十分“费话”, 那么成本将会很快高至以至于让企业感到肉疼不已。
费伯尔5突出代币效率, 实际上是于解决代理化落实之中的账本问题, 从本质上来说。
金融、法律与运营:首次突破 90% 大关的逻辑黑洞
在对高级分析推理能力予以考察的Hebbia金融基准测试里, 也就是Finance Benchmark for senior-level reasoning, Fable 5取得了行业之中的最高分。
在长篇文档推理方面, Fable 5实现了双位数的跨越式增长, 同样在复杂的图表和表格解读方面, 也达成了双位数的跨越式增长, 并且在多步骤根因分析上, 还是实现了双位数的跨越式增长。
当对量化交易大厂IMC和Optiver开展实测时, Fable 5几乎获得了交易分析评估的全部权重, 这其中涵盖事实检索、概念推理还有期望值计算, 并且它展现出令人惊叹的稳定性, 在多次重复运行的情况下, 输出结果的分数全然相同。
数据分析平台 Hex给出的评价是这样的:
在行业内, Fable 5率先在那样极其复杂, 由长周期分析任务所构成的我们的核心分析基准里面, 突破了90%得分的大关, 并且相比Opus, 提升幅度达整整10个百分点。
在最刁钻的提问中,它表现出了人类专家级别的微观评判力。
前沿科研:满血版Mythos“以小胜大”100倍的模型
有初创公司VibeCAD, 还有物理研究机构, 它们在前沿物理学研究上进行了测试, 测试显示, Fable 5仅仅使用了三分之一的推理Token, 它在三十六小时内产出了物理研究成果, 这个成果逼近了GPT - 5.5花费四天跑出来的成绩。
以及仍然有点藏着掖着的Myhtos终于在这一板块现身了。
Anthropic称, 于生物医药领域, 满血版的Mythos 5, 在全然无人类协助情形下, 已然能够独自执行一位生物学家的所有工作流, 包括选择蛋白质结合位点, 自主调度并运行各类生物信息学工具, 甚至在遭遇运行失败时自行Debug。
它设计出来的一系列蛋白质靶向复合物里共包含14个, 其中有9个,已进入了基于实验室实际情况的、对将要研发的药物的相关安排流程之中。

Anthropic再度强调, Mythos 5, 它是这样一种情况, 即“是我们首个达成那般效果的模型”, 什么样的效果, 就是它能够持续不断地产出新颖的, 同时又能吸引他人注意的科学假设。
在跟Opus系列模型进行的盲法直接对照里, 科学家于80%的情形下更偏向于Mythos的分子生物学假定, 而且其中几个假定被推进到了实验验证阶段。
同时, Mythos的一个假定, 一种关乎大肠杆菌蛋白的全新机制, 在另一间独立研究相同问题的实验室的研究里。
一件新近被认出的解毒系统, 对来自反应性氯物种的泌尿道致病性大肠杆菌起到了保护作用, 在《A newly identified detoxification system protects uropathogenic Escherichia coli from reactive chlorine species》里头被证实了。
更夸张的是, 在基因组学的研究这项工作里头, Mythos 5自行开展工作, 持续了一周多的时间, 它拼凑出了138个物种的单细胞数据, 并且自行进行设计与训练, 弄出了一个定制化的微型机器学习的模型。
这个被AI训练而出, 极小化为原本百分之一体积的微型模型, 于表现方面,竟于不久前才刊登上《Science》这份杂志刊载的最新科研成果之上取得了直接性的胜利。
呼吁停止AI研究后,“危险能力”似乎被做成产品机制
此次, 最为有意思之所在, 想必必当是Anthropic为Fable 5所配上的防护网。
准确来说,Fable 5背后挂了一组独立分类器。
那些分类器, 会对用户的请求加以检测, 看看其是不是与网络安全攻击有所关涉, 是不是涉及生物以及化学方面的风险, 除此以外要不要检测模型蒸馏呢。
在触发之后, Fable 5会拒绝自行进行回答, 而是将请求自动转交到Claude Opus 4.8那里, 并且会向用户告知出现了降级这种情况。
有点意思哈。
以往的大模型于安全这个层面, 一般会使模型予以拒绝, 表述诸如“抱歉, 我没办法为你给予协助”, 又或是讲“对不起我不能够作答”, 还会说“对不起我弄不明白你的意图”这般一类等等。
Fable 5换了一种做法。
它不做单纯拒绝了,而是做模型路由。
一般的问题是由这个Fable 5去处理的, 一旦它探测到所面临的问题是具备了比较高风险性质的那种问题, 对应到这一情况, 紧接着就会把这个模型迅速切换到Opus4.8。
Anthropic所表达的意思是, Opus4.8其自身亦是具备强大能力的模型, 那在进行回答时, 即便出现降级的情形, 所带来的体验相较于直接予以拒绝而言, 总归是要好一些的吧?

这套设计实际把能力和安全拆开了。
你日常使用的是Mythos级能力。
然而, 当遭遇到关乎敏感、具备攻击性以及存在企图越狱等一系列问题之际, Anthropic会极为流畅地将老版本模型予以切换, 从而为你提供服务, 致使你手中原本称手的工具, 瞬间在某种程度上就不再那么称手了。
(主要防范网络安全、生化领域和模型蒸馏方面的一些问题)
Anthropic给出了数据——
好消息,超过95%的Fable 5会话不会触发降级。
换句话讲, 针对绝大多数的写作任务而言, 还有针对代码任务, 以及分析任务, 以及研究任务, 还有办公任务, 用户所能够获取到的体验, 基本上是接近于Mythos 5的。
但还有剩下不到5%的请求,会进入更严格的安全路径。
官网表明,高风险领域主要有三类。
第一类是网络安全,第二类是生物和化学,第三类是模型蒸馏。
这套机制背后,其实是前沿模型产品形态的一个变化。
安全, 它并非仅仅是模型回答之前的那一句免责声明, 它也绝不是书写于系统卡里的政策描述。
它成为了由分类器构成的, 由模型路由拼凑的, 由权限分级搭配的数据留存、红队测试一并组合在其中的产品架构。
当然,代价也来了。
Fable 5的分类器调得比较保守,正常请求也可能被误伤。
设想一下, 生物学家针对病毒展开深入研究, 与此同时,安全工程师着手施行授权攻防演练, 这两种情况都极有可能在符合常理的任务范畴之内触碰触发降级这一状况。
Anthropic主动表明, 当下的护栏相比于理想情形更加严格, 在后续阶段会让误伤的概率有所降低。
另一个代价是数据留存。
Fable 5、Mythos 5以及后续同等级模型起, Anthropic提出要求, 要求Mythos级模型在所有流量方面保留30天, 此保留覆盖第一方使用场景, 同时也覆盖第三方使用场景。
官方着重表明, 这些数据将不会被运用于训练, 仅仅会被用于安全监控, 其中涵盖识别复杂攻击, 包含识别新型越狱, 以及识别跨请求攻击。
对普通用户来说,这可能只是条款里的一行字。
但对企业客户来说,这就是非常现实的数据治理问题。
想用最强能力,就要接受更高等级的安全审查和数据留存。
不可避免的开云真人app官方版入口,开云真人app官网入口,前沿模型的成本,也不只体现在API账单上。
对于价格而言, Fable5有着这样的定价情况, 其统一定价为每百万输入Token的10美元, Mythos5也有着这样的定价情形, 它统一定价是每百万输出Token50美元。
的确, 相较于Claude Mythos Preview, 价格要便宜许多, 然而它依旧属于高价模型。
一句话说,Fable5确实强,但不会便宜到可以随便烧。
这同样也阐释了缘何Anthropic会同时着重讲求能力, 并且格外注重安全, 还特别彰显Token效率。
内测AI学者体验:AI越强,人越像甲方
鼎鼎有名的AI学者, 身为沃顿商学院教授的埃森·莫里克, 于最先获取测试权限之后, 撰写了一篇篇幅较长的文章。
其行文逻辑直击这场技术革命的核心本质——
人类与大模型之间的协作范式,发生了根本性、不可逆的逆转。
他让Fable 5做了一个等时圈地图。
这个任务听起来不算玄乎,但真做起来非常麻烦。
它要查询航班, 要查询铁路时刻, 要判断道路速度, 进而还要处理不同国家之间的关系, 要处理不同交通方式之间的关系, 要处理不同时间成本之间的关系。
《会说话的动物史诗: 奇异西部》自身开启好多不同的代理, 以此去查找资料, 得到了超过2200个详细的航班相关信息, 还抓取获取了法国高速铁路、日本新干线之类的铁路方面数据, 并且以及各个国家道路对应的速度信息。

最后,它把这些资料整合进一个可用的地图项目里。
重点是, 这件事里, Fable 5将一个模糊目标, 拆分成研究环节, 拆分成信息搜集环节, 拆分成设计环节,拆分成编码环节, 拆分成验证等多个环节, 而且它自己朝着前面将其推进。
这和过去的大模型体验差别很大。
于是,莫里克提出了一个深刻的洞察。
曾经, 人类运用大模型时, 好比是个“巫师(Wizard)”, 得亲自手把手地去予以指导, 去进行驾驭它(Steer)操作, 精心雕琢每一句Prompt, 借助持续不断的用来对话的提示词来当作“念咒”, 如此这般AI才能够勉强变出一个戏法。
转而面对处于Mythos级别的模型, 人类正逐渐沦为, 那种类似“赞助人, 这里我感觉将其翻译为‘甲方’会更贴切一些的角色”, 或者是“委托人”。
莫里克教授借助Fable5开展工作时, 那种感觉, 已全然不似在操控着一个工具, 反倒更像是在托付给一个小型工作室。

另外, 于莫里克的实际测试期间, 他已无需在最为微观的指令层面开展工作了。
他径直朝着Fable 5送去了一份项目设计文档, 这份文档长达15页且极端复杂, 之后他留下了宏观的需求阐述。
紧接着的九个更多用时的小时当中, Fable 5于后台处在全然自主的那种运行状态里面。
它自行产出了一个Agent工作流, 其内部安排多个小Agent各自依次去开展调研, 进行撰写大纲的工作行径, 彼此之间相互校对, 对错误假设予以推翻, 针对出现的差错重新进行修正再度开展行动。
人类甚至不需要介入这个工作流半步。
9小时后,一个极高质量的成品直接交付到了莫里克面前。

这就是所谓的“工作室(Studio)”隐喻。
从前呀我们运用大模型之时呢那是雇佣了一位临时性的呀且得反复去进行沟通呢的自由职业者;如今呢你使用Fable 5呀这就等同于用几美金的Token呀一下子就雇佣了有着一整家好莱坞级别那般的设计院呀或者是一个顶尖的科研所。
你没必要操心它于黑盒之中究竟做出了多少个微观层面的决策, 你只需充当那个在最终呈现成品表面进行签字作业的“甲方”角色。
对于这种大模型, 长文本上下文与自主逻辑相互结合, 使得Context不再单单只是个“内容容纳器”, 而是完全沉淀成了一个能够自主进行推演, 还能长时间运行的“新型智能操作系统”。
换句话说,AI越像承包方,人类越像需要具备验收能力的甲方。
教授让它进行试玩以供大家体验, 为了能够更直观且更有趣给显示出来, 教授竟然还让它生成了一系列游戏, 这真的只是一个小插曲呀。
这些游戏, 皆基于Claude Code的一个初始提示, Fable 5要依据我给出的模糊提示, 去生成一些可行的程序, 稍后, 我会给出一些额外的提示, 还会给予一些鼓励, 比如“做得更好”, 以及作出一些反馈。
Claude Code因为没办法生成图像, 故而, 所有美术方面的作品, 或者3D对象, 完全都是借助数学运算去生成的, 并且没有用到任何外部的资源。
这里放一个抛硬币游戏的demo:

在内测Fable 5提前之后, 教授作了最后的表示, 称“最终的成果令人印象深刻”。
然而, 特别是当着手开展处理那些更为严肃的项目之时, 教授时常会感觉到运用这个工具既有那种让人开心愉悦之感, 可又呈现出一份带有不安成分在其中的状况。
愉悦之处在于开云app官方最新下载,我只需提出要求,它就能实现。
不安之处也在于,我只需提出要求,它就能实现。
的确。
回到Anthropic这次发布。
有人觉得, 最为关键的是, Mythos终于呈现出半明牌的状态了, 有人则觉得, 首要的是, 前沿的AI产品正迈入新的形态之中。
一个更强的模型上桌了。
不过, Anthropic先是给它系上安全带, 之后才把钥匙递送给所有人。
有人发出欢呼之声, 有人陷入焦虑之中, 有人在整个夜晚不停地调试代码, 仅仅是为了能够追上那条持续不断向前迅猛奔跑、甚至已然开始脱离人类微观视野范围的智能曲线。
Three More Things
1、注意窗口期。
今天起, 直至6月22日, Pro用户能免费使用Fable 5, Max用户也能, Team用户同样可以, 企业版用户亦是如此。
然而, 从6月23日起, 要是还打算使用Fable 5, 那么就必须额外去买usage credits了。
2、Anthropic讲, 一旦产能跟得上, Fable 5会再重新制作成订阅标配。
企业客户中, 那些使用API的, 以及采用按量付费方式的, 不会受到这个节奏的影响, 从今天开始, 依旧像往常一样进行调用。
标签: Claude神话版 Mythos5 AI模型 安全防护 Token效率
还木有评论哦,快来抢沙发吧~