近期,具身智能与世界模型成为科技领域热议话题,人们普遍认为机器人若要拥有世界模型,或许需训练规模更大的视频预测模型,让机器人在像素空间中“做梦”。毕竟互联网上视频资源丰富,人类各种日常行为如开门、倒水等都有视频记录,若语言模型能从文本中获取知识,机器人能否从视频里了解物理世界呢?这一愿景虽美好,但引发了新的思考:机器人真的要在像素中学习物理吗?
像素作为最直接的数据形式,视频数据量庞大且具有天然的可扩展性。然而,像素处于较低层级,机器人真正关注的并非桌布上花朵的纹理、背景中椅子的颜色或摄像机抖动时像素的变化,而是物体如何运动、哪里发生接触、工具与目标关系的变化等。若训练像素空间的世界模型来预测未来画面,模型可能会耗费大量精力学习光照、纹理、背景和相机运动等内容,这些或许并非机器人最需要的。
这就引出一个类似“鸡生蛋、蛋生鸡”的问题:训练适合机器人学的像素世界模型需要大量机器人数据,可若已有这些数据,为何不直接训练策略呢?世界模型本应解决带动作标签的机器人数据难以扩展的问题,却似乎又回到了“需要更多机器人数据”的困境。
除像素空间的世界模型外,还有潜在世界模型(latent world model)这一研究方向。该方向试图将世界压缩到紧凑的潜在空间,再预测潜在动态,看似更为优雅。但长期以来,对于纯黑盒的潜在空间,人们始终保持职业性的怀疑。在谱方法、表示学习和潜在变量模型等领域,潜在空间在论文和基准测试中表现出色,可一旦想要解释、干预或纠正它,就会出现问题,甚至可能崩溃。而机器人系统需要与真实世界接触,要求可靠、可控且可纠错,一个无法解释且损失降低的模型对机器人来说存在风险。
那么,是否存在一种表示,既不像像素那样低层、昂贵、冗余,又不像黑盒潜在空间那样不可解释、难干预呢?有研究者提出了3D交互轨迹这一概念。它并非像素世界模型,也不是纯潜在世界模型,而是一种符号/结构化世界模型,用于预测物理交互中的三维运动轨迹,具体是预测少量语义交互点(如物体部件、工具、手、接触区域)的运动,包括它们如何运动、朝哪个方向运动以及随时间的变化情况。
这种表示形式“规模较小”,无需生成整张未来图像,也不用复原背景、纹理和光照等信息。同时,它又不是完全黑盒的潜在表示,每条轨迹都对应真实世界中有意义的事物,如物体边缘、工具端点等。这种表示紧凑且易于扩展,结构清晰便于解释。
从更宏观的角度看,机器人需要属于自己的符号空间。大型语言模型(LLM)能够扩展,很大程度上得益于人类发明了文字这一统一空间,用于记录、压缩、交换和复用知识,LLM基于此训练自然受益。但机器人世界复杂多样,不同机器人本体、动作空间、传感器、工具、任务和环境差异巨大,一种机器人的动作标签无法直接应用于另一种机器人,人类手部视频也难以转化为机器人可执行的关节指令。因此,对于机器人学而言,关键问题或许并非是否需要世界模型,而是什么是机器人学的“文字”,怎样的符号空间能让机器人跨本体、跨场景、跨任务复用物理知识。
3D交互轨迹可能是机器人的一种物理语言,它描述的是物体在交互中的运动方式,而非物体的名称。它提取了人类视频和机器人视频中的共同部分,即物体、工具、接触点的三维运动结构。为学习这种表示,研究者开发了数据引擎TraceExtract,将普通视频转换为轨迹监督数据,通过确定“什么在动”“它在哪里动”“它怎么动”这三个步骤,从仅包含视频的数据中学习物理交互,减少对昂贵机器人动作标签的依赖。
这对于学术实验室意义重大。学术实验室通常没有工业级的计算资源、内部私有大数据资产以及大量机器人持续采集数据,主要依靠开源数据、学校计算集群和学生的努力。因此,学术实验室必须思考何种表示真正高效。此次研究的预训练数据规模约为20万集、1300万帧、15.7TB,对于学术集群来说规模不小,但与工业级视觉语言动作(VLA)模型的数据规模相比,并非依靠“大力出奇迹”。
该研究采用的策略是让已有的视觉语言主干网络保留语义知识,让单独的轨迹专家学习物理运动,即语义和动态分别由预训练的基础模型和轨迹空间世界模型处理。更为关键的是,世界模型的预训练阶段无需动作标签,之后将世界模型冻结,仅在上面训练一个轻量级的动作专家,将轨迹特征转换为机器人动作。若轨迹空间世界模型真正学到了可复用的物理运动先验,那么下游的机器人控制应该能够利用它。
实验结果令人振奋。在轨迹预测方面,该模型在多个指标和预测范围内表现出色,比一些强大的动作预测接口(API)模型更擅长解决具体的物理预测问题,且推理速度快,单次预测约0.29秒。在仿真和真实机器人实验中,冻结该模型后连接轻量级动作专家,机器人表现与强大的VLA策略相当,在真实机器人评测中,其平均成功率超过了π₀.₅。
这一成果的重要意义并非在于创造了一个最终的机器人策略,而在于证明了轨迹空间预测所学到的知识能够被机器人控制复用。这表明世界模型的价值不一定在于生成更逼真的视频,机器人或许不需要在像素中做更清晰的“梦”,而是更需要一种可迁移、可解释、可干预的物理表示。
当然,3D交互轨迹并非唯一的物理语言,只是初步探索。未来还可加入更多物理先验,如接触图、力/扭矩轨迹、触觉场、以物体为中心的附属关系图、约束条件、能量景观等。这些内容虽不像像素那样“通用”,但可能更接近机器人真正需要理解的世界。具身智能的扩展不应仅局限于更多数据、更大模型和更长训练时间,在扩展之前,更应思考表示空间是否选择正确,若符号空间选择错误,扩展规模越大,可能越快将资源消耗在错误方向上。机器人学习不应只是在像素中复刻视频世界,也不应将物理交互全部置于不可解释的潜在空间中,而是需要寻找机器人学自己的符号空间。