ChatGPT之后，机器人何时能来我家洗碗？

admin 商品展示 2026-06-11 81

为何AI从GPT到家用机器人的物理化进程如此艰难, 举步维艰? 在红杉资本AI峰会上有这样的揭示, 机器人行业正复制大语言模型也就是LLM的成功路径, 借由世界动作模型即WAM、数据飞轮以及虚拟训练场就是DreamDojo这三大突破, 使机械手臂具备了拥有可'脑补'物理常识方面能力。当AI从数字世界迈向物理世界, 到了2026年, 或许会迎来真正的家庭机器人革命。

ChatGPT之后，机器人何时能来我家洗碗？-第1张图片-开云手机入口官网下载-开云app官方最新下载--V3.6.9

身为一名从事AI相关工作的人员, 在过去的三年时间里, 我们目睹了大语言模型也就是LLM呈现出的那种迅猛发展态势, 先是从GPT - 3发展转变到GPT, 而后又看到了多模态模型的大量涌现, 在这样的发展进程中, AI最终达成了在数字世界里能够做到能清楚表达、能绘画并且能书写的能力。然而, 既然AI已经如此聪慧了, 但为什么直至现在都还没有出现一个可以来到家里帮着做洗碗、扫地以及叠衣服这些事情的机器人呢?

数字智能已然足够让人惊艳之时, 为何处于物理世界的智能, 也就是机器人, 依旧显得那般“笨手笨脚”? 在红杉资本举办的AI峰会上有一场名为《Robotics: Endgame》的分享, 从中找到了答案, 答案便在于: 机器人并非是不能够变得聪明起来, 只是我们尚未找寻到正确的路径而已。而这条路径, 早就已经被GPT验证过了, 也就是说抄LLM的作业, 乃是机器人达成突破的最为快捷的途径。

一、为什么现在的机器人开云app在线入口，总显得“不够聪明”？

我们常常于短视频之中见识到令人惊艳的机器人演示, 机械臂能精准地抓取物品, 机器狗可灵活地穿越障碍, 然而这些大多属于所谓的“精心设计的表演”。现实里的机器人, 要么仅仅能够在工厂内进行重复的预设动作, 要么一旦更换场景便会“失灵”, 根本无法达成我们对于“管家”的的期许所期待那样。

在行业之内, 曾经尝试运用VLA模型, 也就是视觉 - 语言 - 动作模型, 去解决这样一个问题, 这个问题是给机器人安装摄像头, 可以连接语言模型, 使得它能够“看图听话”, 在听懂指令之后立刻采取行动。可是呢, 这条路径, 实则在根源之处就已然行不通了。

核心缘由仅为一个，那便是: 物理世界相较于数字世界而言, 要复杂得多。GPT 只要掌握了语言规则, 便能够开展聊天, 哪怕出现错误, 重新书写一句便可；然而机器人却须直面重力、摩擦力、材质差异这类“物理常识”, 比如人本能地晓得拿玻璃杯时要轻柔, 拿铁锤时需用力, 知晓水倒多了会产生溢出的情况, 可是机器人仅仅依靠“看”, 是永远无法学会这些直觉的。

较为关键的是, 软件产品出现故障, 顶多是应用程序突然退出应用；然而机器人出现问题开云app官方入口网站，有可能是打破昂贵花瓶, 甚至会伤害他人。因此, 使机器人具备“物理常识”, 并非是额外的优势, 而是关乎生死的界限。

二、抄LLM的作业：机器人突破的核心逻辑

GPT取得成功, 其本质是一种能够被复制的工程范式, 包含海量数据预训练, 以及缩放定律, 还有强化学习对齐。而在演讲里, 最为核心的观点是, 有机器人正在复制这一路径, 只是比GPT晚了3至5年, 这便是Jim Fan所讲的“The Great Parallel”, 也就是“伟大的平行”。

对于从事AI的人员而言, 这并非一句空洞大话, 而是一套能够实际施行的方法论, LLM借助互联网文本开展预训练, 那么机器人就要寻觅自身的“互联网级数据”, LLM依靠RLHF实现对齐, 机器人则依靠“物理强化学习”去补足最后一公里, LLM存在Scaling Law（缩放定律）, 机器人同样拥有自身的“灵巧度缩放定律”。

变为伶俐的机器人, 用不着从起始点开始摸索探寻不已, 追随类似大语言模型那种取得成功的途径前行, 便不会出现差错。存在着三项关键的突破性进展, 正处于对机器人行业格局进行改写的进程之中。

突破1：世界动作模型（WAM）——给机器人装上“脑补能力”

要是仅仅凭借“看”这种方式没办法学会物理常识, 那么就得给机器人安装一个具备“能对物理后果进行推演”能力的大脑, 也就是世界动作模型（WAM）。

这么一听显得特别高档前沿, 事实上仅仅只是“脑内想象能力”罢了。如同Sora视频大模型在研究“世界运行的方式”那般, WAM能够使得机器人在动手做之前, 于脑海当中“播放画面”: 比如说要去倒一杯水, 便会预先演练到手滑杯子将会掉落、倾斜的角度过于大就会洒出水来；比如要去开抽屉, 就会预先判断拉哪个位置最为省力、要是卡住了该怎样去进行调整。

这跟人类的直觉完全相同, 在我们拿起杯子之前, 不会特意去核算牛顿力学, 然而大脑当中早已经预先演绎了全部有可能出现的后果, 未来AI的关键竞争力, 不再是记知识, 算题快这件事, 而是脑补预演的精准的程度为何, 谁能够做出更加契合现实规律的WAM, 谁就把控住了机器人的关键命脉。

突破2：数据飞轮——机器人的“特斯拉护城河”

GPT凭借海量文本喂出了智能 , 机器人想要变灵巧 , 同样需要海量的 “动作数据”。而这里的关键之处 , 是复制特斯拉FSD的 “数据飞轮” 逻辑。

特斯拉在自动驾驶方面表现得极为出色, 原因在于遍布大街小巷的众多车辆都在持续不断地回传真实的道路数据, 数据量越大, 所构建的模型也就越强大, 模型越强大, 购买相关产品的人就越多, 如此便形成了一种良好的正向循环。机器人的情况与之类似, 在演讲当中所提及的“灵巧度缩放定律”, 其本质实际上就是“大力出奇迹”这一原理, 也就是说开运真人app下载苹果版,开运真人app下载，只要为机器人提供足够数量的真实动作数据, 那么它的手部操作就会变得越来越灵巧, 做出的动作也会越来越趋近于人类。

首先, 机器人的数据采集, 相较于LLM而言, 要困难得多。然后, 互联网存在着免费取用的文本语料, 然而机器人的动作数据, 却需要通过真机操作以及人工遥测来获取, 其成本十分高昂。接着, 这也就表明, 在未来的行业之中, 所形成的壁垒并非算法, 而是具备“低成本采集高质量动作数据”的那种能力。最后, 那些能够教导机器人做事的“数据采集手套”“VR遥控器”, 或许比机器人自身更具备商业价值。

突破3：DreamDojo——在虚拟世界里“练满级”再落地

具备了模型以及数据之后, 还存在着一个现实方面的难题: 要使机器人学会洗碗, 难道果真要去购买一万个碗供它摔打吗? 成本实在是太高了, 并且这也是不切实际的。解决这个所谓“最后一公里”问题的关键之处, 便是DreamDojo（梦想道场）。

你能够将其想象成如同《黑客帝国》里的那种虚拟母体一般——我们于电脑之中构建出一个全然契合物理规律的“虚拟厨房”, 使得机器人的“灵魂”于其间日以继夜、不间断地展开训练: 让其在一年内洗好几万年的碗, 致使无数个虚拟盘子被摔碎, 而且试错成本是零。待其在虚拟世界里修炼成为“洗碗大师”之际, 再把所积累的经验下载至真实的机器人身上, 这时候它便能够直接着手干活。如此一来便彻底地解决了机器人在真实世界里试错成本过高的这一难题。

传统仿真工具存在着“虚拟和现实脱节”这样的痛点问题, DreamDojo借助神经物理引擎, 使得虚拟环境无比贴近于真实状况, 让机器人的训练效率获得极大提升, 提升幅度达到千倍甚至万倍。在未来, 能够把“机器人版的训练平台”做好的一方, 将会身为机器人时代之中的“英伟达CUDA”。

三、机器人行业的3个关键判断

当听完那整场演讲之后, 身为AI从业者的我, 对于机器人的未来, 存在着三个深刻的判断, 并且于此想要和大家进行一番分享:

首先, 机器人已不再是“硬件公司”所独有的游戏范畴。以往的时候, 机器人行业的核心构成是“机械 + 控制”这种模式, 其竞争比拼的重点在于硬件方面所具备的精度；然而当下的情况却是, “AI + 数据”, 也就是数据、模型以及仿真, 才是对竞争力起到决定性作用的关键要素。

二来, “通用性”属于唯一的长期走向。从短期视角而言, 专用机器人（咖啡制作机器人、按摩机器人）具备盈利能力, 然而长期必然会遭受通用机器人的降维式冲击——此情形与GPT全面压倒所有专用NLP工具的逻辑毫无二致。在将来, 能够适配多种场景、达成多种任务的通用机器人, 才终会是市场的答案了。

第三, 物理AGI的时间表, 相较于我们所想象的, 而是更为接近。Jim Fan在演讲最终的时候讲道: “它比你所设想的更近”。将GPT-3到GPT-4仅仅用了3年予以结合, 机器人从“能够动”到“能够使用”的时间窗口时期, 有可能就在2026年至2028年这个阶段, 或许不是得等上十年之后, 就能够看见能够走进家庭、帮助我们去做家务的机器人管家了。

四、结语：AI从“屏幕里”走向“现实中”

GPT出现, 使得AI学会去理解以及生成数字世界的内容, 机器人崛起, 会让AI拥有真实躯体, 进而走进物理世界, 切实地“动手做事”, 这是AI从“理解世界”迈向“改变世界”的转折点, GPT之后, 下一个具有重大影响力的并非另一个语言模型, 而是能够走进我们生活, 帮我们解决实际问题的全能机器人。

标签： AI 机器人技术未来智能

本文地址： http://www.cangpinge.com/post/1549.html