henry 发自 凹非寺MK体育(中国)官方网站
量子位 | 公众号 QbitAI
继“下一个词预测”之后,宇宙建模将成为新的预磨真金不怕火范式。
这是英伟达机器东谈主垄断Jim Fan给出的最新判断。

他觉得,2026年将成为大宇宙模子(Large World Models)真确为机器东谈主界限以及更广义的多模态AI奠定基础的第一年。
谢赛宁立时转发暗意赞同:“过后看来可想而知”。

在这篇长文中,Jim Fan磋磨了宇宙模子的界说与欺骗,尤其聚焦于物理AI界限的发展,同期瞻望了新的推理形式:
宇宙建模(world modeling)是在给定一个动作的要求下,预测下一个合理的宇宙景况(或一段更永劫刻范围内的景况)。面前宇宙模子的主要炒作齐集在AI视频界限,而2026年将迎来物理AI的爆发。宇宙模子需要更广义的预磨真金不怕火方向:下一个宇宙景况不应只包含RGB,还必须遮蔽3D通顺、骨子嗅觉与触觉。将出现一种新的推理形式:在视觉空间中的念念维链,而非言语空间中的念念维链。以下为共享全文:
第二个预磨真金不怕火范式下一个词预测(Next word prediction )曾是第一个预磨真金不怕火范式,而当今咱们正在经历第二次范式滚动:
宇宙建模(world modeling),或者说“下一个物理景况预测”。
很少有东谈主真确意会这一行变的长远真义。祸害的是,目下宇宙模子最被炒作的欺骗仍然是AI视频(接下来可能是游戏)。
我尽头有信心性说:2026年将成为大宇宙模子(Large World Models)初度为机器东谈主界限,以及更广义的多模态 AI 奠定确切基础的一年。
在这个配景下,我将宇宙建模界说为:在给定一个动作的要求下,预测下一个合理的宇宙景况(或一段更永劫刻范围内的景况)。
视频生成模子是其中的一种达成形式,其中“下一个景况”是一系列RGB帧(频频为 8–10 秒,最长可达数分钟),而“动作”是一段描写要扩充什么的文本。
磨真金不怕火流程就是对数十亿小时视频像素的将来变化进行建模。
试验上,视频宇宙模子就是可学习的物理模拟器和渲染引擎。
它们能够捕捉反事实情景(counterfactuals),即预测若是选拔不同动作,将来可能会如何不同——这就是推理。宇宙模子从压根上以视觉为中心。
比拟之下,VLM试验上所以言语为中心的。从最早的原型(e.g. LLaVA, Liu et al. 2023)驱动,举座旅途基本一致:视觉在编码器处干预,然后被送入言语骨干齐集。
跟着时刻推移,编码器贬抑改造,架构变得更直率,视觉试图变得愈加“原生”(如全模态模子)。
相关词,视觉仍然是二等公民,无法与界限多年构建的LLM材干比拟。(LLM)这条蹊径便捷,因为咱们熟LLM的推广性,架构筹画、数据配方、评测方向(如 VQA)皆高度优化为言语办事。
对于物理AI来说,2025年以VLA为主:在预磨真金不怕火VLM上接入机器东谈主动作解码器。
严格来说,它更像是 “LVA”:言语 > 视觉 > 动作,等第递减。
方即是便捷,但VLM中大大批参数用于学问(举例“这一团像素是好意思味可乐品牌”),而不是物理(“若是你倾倒可乐瓶,它会洒成棕色水洼,龌龊白色桌布,还可能损坏电机”)。
VLA的筹画在学问检索上很强,但物理材干分派不及。多阶段嫁接的筹画,也违背我对直率优雅的偏好。
从生物学角度看,视觉主导了咱们的皮层计算。纯粹三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。
比拟之下,言语依赖于一个相对紧凑的区域。视觉是结合咱们大脑、通顺系统和物理宇宙的最高带宽通谈。它闭合了“感知—通顺回路(sensorimotor loop)”——这是机器东谈主最需要处置的回路,况兼在中间不需要言语。
当然界给了咱们一个最具劝服力的例证:高智慧物缄默能简直不依赖言语——猿类。
我见过猿类驾驶高尔夫球车,用螺丝刀更换刹车片,动作就像东谈主类机械师同样。
它们的言语意会材干不跳动BERT或GPT-1,但它们的物理手段远远跳动咱们面前发轫进的机器东谈主。
猿类可能莫得优秀的言语模子,但它们赫然领有对“若是……会怎样”的郑重表情表征:即对物理宇宙如何运作、以及在其骚扰下会如何反应的意会。
宇宙建模的时间依然到来。
这是带着苦涩经历的时间。正如Jitendra常教导咱们这些“推广成瘾者”:
监督是AI说合者的烟土。
YouTube的海量视频和智能眼镜的兴起,将以远超文本磨真金不怕火范围的原始视觉流捕捉宇宙。
咱们将看到一种新的预磨真金不怕火形式:下一个宇宙景况将不单包含RGB——3D空间通顺、骨子嗅觉和触觉感知才刚刚驱动。
咱们将看到一种新的推理形式:在视觉空间中的念念维链,而不是言语空间中的念念维链。
你不错通过模拟几何相关和搏斗来处置物理谜题,联想物体如何挪动和碰撞,而无需将其翻译成字符串。言语是一种瓶颈,是一种脚手架,而不是基础。
咱们将濒临一系列新的潘多拉盒问题:即便将来模拟好意思满,动作该如何解码?
像素重建的确是最优方向,如故应该干预其他潜在空间?需要若干机器东谈主数据?而已操作的推广是否仍然可行?
完成这些之后,咱们是否终于迎来机器东谈主界限的GPT-3时刻?
Ilya 说得没错:AGI尚未料理。咱们又回到了说合时间,而莫得什么比挑战第一性旨趣更让东谈主兴隆的了。
宇宙模子手脚新的范式总体来看,这篇新著作不错被看作是Jim Fan在2025年机器东谈主年终追想中第三点的延迟与伸开。
那时,他提倡:基于VLM的蹊径,试验上主要办事于言语和学问,而不是物理宇宙自身。
那时,他依然把问题说得很直白:
VLM的参数主要面向言语和学问,而非物理宇宙。
视觉编码器在磨真金不怕火中会主动丢弃细节,但机器东谈主操作正巧依赖这些细节。
因此,VLA并不会跟着VLM的scale当然增强。
而最近这篇对于world modeling(宇宙建模) 的长文,则不错看作是Jim Fan对这一判断的系统性伸开与进一步念念考。
对于他的不雅点,业内大佬和网友也纷繁抒发了成见。
来自Google DeepMind的Genie 3统一证实东谈主、宇宙模子团队证实东谈主Jack Parker-Holder也在转发共享了他对宇宙模子欺骗场景的意会:
宇宙模子自身就是一类全新的基础模子。它们既办事于交互式媒体(视频模子),也办事于具身AGI。宇宙模子是结合虚构与物理两个界限的桥梁,其真确价值在于跨任务、跨界限的泛化材干。
换句话说,就像LLM手脚基座模子既能编程又能解数学题同样,放到宇宙模子上,视频生成与具身操控也不错兼容。
而谷歌、英伟达等玩家,也皆在虚构游戏、视频以及物理机器东谈主界限同步布局。
不外,前英伟达机器东谈主说合垄断Arsalan Mousavian也教导:
对于大型宇宙模子(LWM)来说,这是一个尽头棒的愿景,但从像素到物理的跃迁仍然很陡峻。
要让宇宙模子成为可靠的动作生成骨干,还必须处置以下问题:
几何一致性:确保通顺学和物体恒常性在物理上斥地。合并性保抓:幸免跨实体的幻觉预测,举例机器东谈主A在预测流程中顷刻间形成机器东谈主B。推理速率:裁汰及时轮回延迟。大型宇宙模子计算量大、延迟高,而机器东谈主需要高频率反映。动作采样:宇宙模子不错预测成果,但咱们仍然需要对动作进行采样。在数据量和计算需求上,这一方向将使面前的动作政策推广(action-policy scaling)显得相对和缓。
此外,jim fan提到的视觉推理也激勉浅近磋磨:
推理不一定非得依赖言语——视觉模拟(几何、搏斗、通顺)自身就能组成推理流程。
机器东谈主恰是视觉为中心的基础模子大显神通的好意思满舞台。2026将是多模态、多轮交互代理(机器东谈主/CUA)之年,而这一场比赛的胜者,势必会在游戏中愈加疼爱视觉模态。
猿猴的比方尽头贴切。咱们太过酣醉言语,甚至于健忘了智慧的行为材干并不一定需要词汇量。2026年能够是机器东谈主工夫最终罢手依赖言语模子,转而构建原生系统的一年。
而除开英伟达、谷歌等巨头谢宇宙模子工夫蹊径的押注外,交易层面也在快速鼓吹——
一周前,李飞飞创办的World Labs正以约50亿好意思元估值进行新一轮融资,范围最高可达5亿好意思元。
而LeCun前段时刻创办AMI Labs(Advanced Machine Intelligence,AMI)也勾引了包括Cathay Innovation在内的潜在投资者,外传其融资估值可能达到35亿好意思元。
参考聚会:https://x.com/DrJimFan/status/2018754323141054786
— 完 —
量子位 QbitAI · 头条号签约
柔顺咱们MK体育(中国)官方网站,第一时刻获知前沿科技动态

