在人工智能领域,智源研究院始终是备受瞩目的存在。从中国大模型产业的兴起,到如今具身智能赛道的风起云涌,智源研究院都扮演着关键角色,见证并推动着行业从萌芽走向成熟。
回顾过去,智源研究院堪称中国大模型创业版图的人才摇篮。智谱创始人唐杰、月之暗面创始人杨植麟、面壁智能联合创始人刘知远、银河通用创始人王鹤等一批在行业内极具影响力的人物,均从这里走出,他们后来创办的公司,成为中国大模型和具身智能领域的代表性企业。智源研究院不仅是悟道大模型的诞生地,更为众多大模型创业公司提供核心人才,见证了中国大模型产业从无到有的全过程。
当下,具身智能正成为AI行业的新焦点。公开数据显示,2026年一季度,具身智能产业链在一级市场的融资规模达到2560亿元,显示出资本对该领域的强烈看好。与两年前大模型创业潮类似,具身智能赛道也呈现出明显的头部化趋势。对于估值超百亿的具身智能本体公司,大部分风险投资机构已难以参与其中。在此背景下,一级市场的资金开始流向具身智能产业链上游的公司,世界模型便是备受关注的方向之一。
尽管世界模型概念在过去一年频繁出现,但行业内尚未形成统一定义。在近期举办的智源大会上,智源研究院院长王仲远首次对世界模型的四类技术路线进行了清晰划分。第一类是以语言为中心的世界模型,涵盖VLM、VLA,这类模型在文本空间预测下一个词,只能学到语言描述的世界,无法理解背后的物理后果;第二类是以像素为中心的世界模型,如2024年初OpenAI将Sora称为“World Simulator”,模型在视觉空间学习视频或图像,学到的是像素描述的世界;第三类是以三维结构为中心的世界模型,李飞飞创立World Labs后提出“空间智能”并多次定义世界模型,其认为世界模型应让AI理解和生成可交互的三维世界,但模型重建3D空间并不等同于理解世界,几何结构也不代表物理状态;第四类是以视觉表征为中心的世界模型,由meta首席AI科学家Yann LeCun提出,主张在隐空间学习世界规律,通过预测抽象状态而非具体画面理解现实世界,但模型预测的是视觉表征的压缩,视觉嵌入演化不等于物理规律演化。目前,智源正在尝试第五种路线,即结合以语言为中心和以视觉表征为中心的潜空间表征,同一个潜空间能够解码不同模态。
不同技术路线的世界模型虽各有特点,但共同目标都是让AI不再局限于理解语言,而是真正理解世界。在这场尚未达成共识的竞赛中,智源研究院已开始搭建自己的世界模型版图。目前,智源已形成从基座大模型、智能体到基础软硬件生态的完整布局。今年智源大会发布的悟界·Physis - v0.1与悟界·RoboBrain Orca,是其世界模型路线的重要成果。悟界·Physis - v0.1定位为全球首款通用世界基座模型,由22岁的青年科学家陈博远负责,他加入智源后担任智源行为世界模型创新中心负责人,带领团队探索下一代通用世界基座模型;悟界·RoboBrain Orca由智源具身模型负责人王鹏伟带队,打造基于下一个物理状态预测为核心的具身大脑,旨在为具身智能机器人赋能。
从大模型到世界模型,智源研究院为何提前布局?王仲远表示,世界模型的定义在行业内尚未统一,有人将其视为视频生成模型的下一阶段,有人认为它是构建三维世界的基础设施,还有人觉得它是机器人理解现实世界的关键能力。在他看来,世界模型不会像当年大模型那样迅速形成统一赛道和竞争格局,目前技术路线尚未收敛,各家所提的世界模型概念可能存在差异,主流路径未统一意味着接下来很长一段时间大家都会各执一词,非行业人士甚至难以分辨真正的世界模型。
智源研究院真正想做的是具备泛化能力的通用世界基座模型。这种模型并非单纯生成视频或复刻现实世界的像素细节,而是能够理解世界运行规律并预测未来状态。王仲远以一个2岁小女孩为例,小女孩通过观看短视频和与真实物理世界交互,学会了拆糖果、串蓝莓等能力,世界模型就需要像人一样具备自主学习这些能力。然而,当前行业存在一个普遍误区,即将“视觉能力”与“物理理解”混为一谈。无论是视频生成模型,还是广泛应用于机器人公司的VLM/VLA,本质上仍停留在语言描述或像素描述的世界,未触及物理状态预测的核心。
过去两年,VLM和VLA成为机器人公司的标配,通过引入大模型推理能力,机器人能够完成简单指令理解、路径规划和部分操作任务。但当面对训练数据中未出现过的新场景时,机器人的泛化能力十分有限,它可能知道拿起杯子,却不知道杯子掉落后会发生什么;知道开门的动作,却不一定理解门后的空间关系变化。归根结底,机器人缺少对现实世界运行规律的理解能力,而这正是世界模型存在的意义。王仲远解释道,世界基座模型要解决VLA、具身模型等遇到的痛点和卡点,即不具备泛化能力、自我推理和决策能力的问题。
目前,世界模型还远未达到大模型在2022年的发展水平。它没有统一定义、技术路线和行业公认的基础架构,OpenAI的World Simulator、李飞飞的空间智能、Yann LeCun的世界模型框架等都处于探索阶段,行业对于“什么才是真正的世界模型”仍存在巨大分歧。王仲远认为,这恰恰说明世界模型处于最早期的发展阶段,其重要性和发展阶段大概相当于2012年的深度学习。2012年,AlexNet的出现让深度学习展现出超越传统算法的潜力,但当时无人能预见几年后会出现Transformer,更无法想象ChatGPT会彻底改变AI产业。如今,世界模型正经历类似时刻,它可能成为机器人时代的基础设施,也可能演化成全新的智能架构,可能诞生于具身智能,也可能率先在数字世界取得突破。可以确定的是,越来越多研究机构、创业公司和资本开始关注这一领域,而智源研究院已站在这一浪潮的起点。
