在具身智能领域,当多数团队聚焦于开发机器人的“大脑”时,一款名为Uranus的世界模型另辟蹊径,选择成为机器人开发的基础设施,为行业提供关键支撑。这一独特定位源于其对具身智能行业痛点的精准把握。
当前,具身智能行业面临两大突出问题。一是评测基准公信力不足,许多评测难以客观、公正地评估VLA和世界模型;二是仿真与现实场景存在巨大差距,传统仿真器中表现优异的模型,在真实场景中往往大打折扣。Uranus正是针对这两个痛点展开研发。
Uranus的开发团队来自地瓜机器人,这是一家由地平线分拆而来的机器人公司,定位为机器人软硬件通用底座提供商,致力于打造机器人行业的“卖铲”生意。地瓜机器人认为,要让机器人的“大脑”变得更聪明,首先需要一个能让其反复试错、稳定考试并复盘成绩的平台,Uranus便应运而生。
Uranus的第一个重要用途是作为具身模型的评测基准。目前,机器人常用的评测方式主要有真机评测和仿真评测两种。真机评测效率低下,验证一个模型需要人工反复重置环境,耗时费力且成本高昂,同时评测结果难以复现;仿真评测虽然速度快、成本低且可复现,但存在严重的sim-to-real gap,仿真中的高分在真实场景中往往无法体现。Uranus则开辟了第三条道路,它能够根据模型输出的动作生成环境反馈,进而得出成功率、轨迹偏差等指标。这种方式不仅迭代效率远高于真机评测,还能有效控制变量,保证评测结果稳定复现,且评测分数与模型在真实场景中的实际能力高度相关,sim-to-real gap极小。地瓜机器人算法副总裁隋伟表示,当前部分榜单因依赖的学术指标与真实应用存在距离,导致“刷榜”行为引发争议。Uranus并不排斥刷榜,但关键是要确保刷出的分数具有实际意义,能够真实反映模型的能力。
除了作为评测基准,Uranus还具备机器人仿真器的功能,主要应用于操作领域。传统的物理仿真器存在诸多弊端,构建仿真场景需要耗费大量时间和精力进行3D建模、材质设定和物理参数调校,每个新环境都需要数天甚至数周的搭建时间。而且,传统仿真器渲染的画面不够真实,sim-to-real gap问题突出,部分仿真器甚至为了简化计算而违背基本的物理规则。Uranus则采用了不同的方法,它不依赖手工还原3D世界,而是直接从数据中学习机器人执行动作后下一帧画面的变化。在Uranus中搭建场景十分简便,只需提供几帧参考图像、机器人关节状态、相机参数和文本描述,模型就能生成对应的场景。其生成的视频画面逼真,肉眼几乎难以分辨是实拍还是生成,有效缩小了仿真器与真实场景之间的差距。
Uranus能够实现如此出色的性能,得益于其关键技术能力——帧级闭环。普通视频生成模型通常一次性生成整段视频,中间无法打断或根据新动作改写后续内容。而机器人需要根据当前画面输出动作,动作执行后环境变化,再根据新画面输出下一步动作,这一过程必须逐步进行。Uranus每次仅生成下一帧,新生成的帧会立即进入历史窗口,与下一步动作一起作为模型输入。用户还可以随时接管,改变动作指令,使后续画面沿新轨迹生成。这就好比,Seedance等视频生成模型生成的是按剧本拍摄的电影,而Uranus生成的是可实时交互的游戏。然而,帧级闭环也带来了核心挑战——误差累积。每一步的微小预测误差都会作为历史条件传入下一步,几十步后画面可能模糊甚至变成像素块。但Uranus突破了闭环长序列的瓶颈,尽管训练时仅见过2秒短片段,推理时却能稳定运行60秒且保持画质稳定。Uranus还具备跨具身零样本泛化能力,目前支持G1人形机器人、Franka协作臂,未来还将增加更多本体。不过,由于目前模态仅包含动作、图像和语言,尚未加入触觉、摩擦力、电机信号等,Uranus目前仅支持操作训练,不支持运动控制训练。隋伟表示,补充这些模态的关键在于数据,而目前这类数据普遍不成熟。
地瓜机器人选择将Uranus定位为基础设施而非具身大脑,有着多方面的考量。地瓜机器人大模型负责人秦文康指出,许多世界模型将视频生成作为辅助损失函数,但学术界通常不关注训练过程中生成视频的质量。团队发现,许多世界模型生成的视频质量仍有提升空间,因此认为先将视频生成质量做扎实,可能对下游动作生成训练更有帮助。做基础设施与做具身大脑底层原理相同,但做基础设施难度更大。做具身大脑有相对明确的学术成果可参考,而做仿真器缺乏成功的论文或范式。从技术层面看,做基础设施需要攻克像素级生成、跨视角一致性和帧级闭环等难题。许多机器人公司因缺乏算力且视频训练资源消耗大、不确定性高,不愿投入资源开发基础设施。而地瓜机器人将自己定位为机器人界的“英伟达”,一直致力于构建“地基”,提供芯片方案、开发工具、训练和部署平台。Uranus能够自然融入地瓜机器人的生态,连接评测和强化学习训练这两个开发流程的关键环节。
Uranus的诞生并非一帆风顺,开发团队将三分之二的精力投入到了搭infra和处理数据等看似“脏活累活”的工作中。在infra方面,团队面临诸多挑战。Uranus需要处理PB量级的数据,为此设计了分层存储方案,并在训练阶段解决数据加速访问问题。算力方面,今年上半年市场上显卡短缺,单一云服务商无法满足需求,团队不得不设计跨云的算力协调方案。训练高分辨率、长时间视频时,单卡显存不足,需要将视频切开在不同卡上并行计算,再将结果聚合。团队对存储、算力节点位置、网络连接以及上层训练数据热存储加速等方面都进行了重新优化。团队认为,语言模型领域已形成共识,没有infra就无法开展大模型研究,但具身行业对infra的重视程度还不够。在数据处理方面,Uranus主要使用开源数据训练,量级在几百小时。然而,这些数据存在诸多问题,如丢帧、动作与视频不匹配、相机标定不准确等。团队需要对数据进行切片处理、算法修正和筛选脏数据等操作。目前几百小时的数据远未满足Uranus的需求,模型能力随数据增加而提升的趋势尚未收敛。Uranus计划今年下半年将数据扩展到几千小时量级,明年达到数万到十几万小时。隋伟认为,当前具身行业单纯堆砌数据时长意义不大,同质化数据对模型训练作用有限,数据的质量和多样性更为关键。他以自动驾驶行业为例,该行业关注的是不同时间、空间、场景下采到的片段数量,而非总时长。在具身行业,模型决定下限,数据决定上限。仅通过做好相机标定、对齐动作画面关系和筛选脏数据,就能使成功率提升几十个百分点,而算法难以达到同样效果。目前,许多关键工作仍属于数据工程范畴,尚未到拼模型的时候。
