地瓜机器人Uranus另辟蹊径：不做具身大脑，专注机器人开发“地基”-人工智能-ITBear科技资讯

在具身智能领域，当多数团队聚焦于开发机器人的“大脑”时，一款名为Uranus的世界模型另辟蹊径，选择成为机器人开发的基础设施，为行业提供关键支撑。这一独特定位源于其对具身智能行业痛点的精准把握。

当前，具身智能行业面临两大突出问题。一是评测基准公信力不足，许多评测难以客观、公正地评估VLA和世界模型；二是仿真与现实场景存在巨大差距，传统仿真器中表现优异的模型，在真实场景中往往大打折扣。Uranus正是针对这两个痛点展开研发。

Uranus的开发团队来自地瓜机器人，这是一家由地平线分拆而来的机器人公司，定位为机器人软硬件通用底座提供商，致力于打造机器人行业的“卖铲”生意。地瓜机器人认为，要让机器人的“大脑”变得更聪明，首先需要一个能让其反复试错、稳定考试并复盘成绩的平台，Uranus便应运而生。

Uranus的第一个重要用途是作为具身模型的评测基准。目前，机器人常用的评测方式主要有真机评测和仿真评测两种。真机评测效率低下，验证一个模型需要人工反复重置环境，耗时费力且成本高昂，同时评测结果难以复现；仿真评测虽然速度快、成本低且可复现，但存在严重的sim-to-real gap，仿真中的高分在真实场景中往往无法体现。Uranus则开辟了第三条道路，它能够根据模型输出的动作生成环境反馈，进而得出成功率、轨迹偏差等指标。这种方式不仅迭代效率远高于真机评测，还能有效控制变量，保证评测结果稳定复现，且评测分数与模型在真实场景中的实际能力高度相关，sim-to-real gap极小。地瓜机器人算法副总裁隋伟表示，当前部分榜单因依赖的学术指标与真实应用存在距离，导致“刷榜”行为引发争议。Uranus并不排斥刷榜，但关键是要确保刷出的分数具有实际意义，能够真实反映模型的能力。

除了作为评测基准，Uranus还具备机器人仿真器的功能，主要应用于操作领域。传统的物理仿真器存在诸多弊端，构建仿真场景需要耗费大量时间和精力进行3D建模、材质设定和物理参数调校，每个新环境都需要数天甚至数周的搭建时间。而且，传统仿真器渲染的画面不够真实，sim-to-real gap问题突出，部分仿真器甚至为了简化计算而违背基本的物理规则。Uranus则采用了不同的方法，它不依赖手工还原3D世界，而是直接从数据中学习机器人执行动作后下一帧画面的变化。在Uranus中搭建场景十分简便，只需提供几帧参考图像、机器人关节状态、相机参数和文本描述，模型就能生成对应的场景。其生成的视频画面逼真，肉眼几乎难以分辨是实拍还是生成，有效缩小了仿真器与真实场景之间的差距。

Uranus能够实现如此出色的性能，得益于其关键技术能力——帧级闭环。普通视频生成模型通常一次性生成整段视频，中间无法打断或根据新动作改写后续内容。而机器人需要根据当前画面输出动作，动作执行后环境变化，再根据新画面输出下一步动作，这一过程必须逐步进行。Uranus每次仅生成下一帧，新生成的帧会立即进入历史窗口，与下一步动作一起作为模型输入。用户还可以随时接管，改变动作指令，使后续画面沿新轨迹生成。这就好比，Seedance等视频生成模型生成的是按剧本拍摄的电影，而Uranus生成的是可实时交互的游戏。然而，帧级闭环也带来了核心挑战——误差累积。每一步的微小预测误差都会作为历史条件传入下一步，几十步后画面可能模糊甚至变成像素块。但Uranus突破了闭环长序列的瓶颈，尽管训练时仅见过2秒短片段，推理时却能稳定运行60秒且保持画质稳定。Uranus还具备跨具身零样本泛化能力，目前支持G1人形机器人、Franka协作臂，未来还将增加更多本体。不过，由于目前模态仅包含动作、图像和语言，尚未加入触觉、摩擦力、电机信号等，Uranus目前仅支持操作训练，不支持运动控制训练。隋伟表示，补充这些模态的关键在于数据，而目前这类数据普遍不成熟。

地瓜机器人选择将Uranus定位为基础设施而非具身大脑，有着多方面的考量。地瓜机器人大模型负责人秦文康指出，许多世界模型将视频生成作为辅助损失函数，但学术界通常不关注训练过程中生成视频的质量。团队发现，许多世界模型生成的视频质量仍有提升空间，因此认为先将视频生成质量做扎实，可能对下游动作生成训练更有帮助。做基础设施与做具身大脑底层原理相同，但做基础设施难度更大。做具身大脑有相对明确的学术成果可参考，而做仿真器缺乏成功的论文或范式。从技术层面看，做基础设施需要攻克像素级生成、跨视角一致性和帧级闭环等难题。许多机器人公司因缺乏算力且视频训练资源消耗大、不确定性高，不愿投入资源开发基础设施。而地瓜机器人将自己定位为机器人界的“英伟达”，一直致力于构建“地基”，提供芯片方案、开发工具、训练和部署平台。Uranus能够自然融入地瓜机器人的生态，连接评测和强化学习训练这两个开发流程的关键环节。

Uranus的诞生并非一帆风顺，开发团队将三分之二的精力投入到了搭infra和处理数据等看似“脏活累活”的工作中。在infra方面，团队面临诸多挑战。Uranus需要处理PB量级的数据，为此设计了分层存储方案，并在训练阶段解决数据加速访问问题。算力方面，今年上半年市场上显卡短缺，单一云服务商无法满足需求，团队不得不设计跨云的算力协调方案。训练高分辨率、长时间视频时，单卡显存不足，需要将视频切开在不同卡上并行计算，再将结果聚合。团队对存储、算力节点位置、网络连接以及上层训练数据热存储加速等方面都进行了重新优化。团队认为，语言模型领域已形成共识，没有infra就无法开展大模型研究，但具身行业对infra的重视程度还不够。在数据处理方面，Uranus主要使用开源数据训练，量级在几百小时。然而，这些数据存在诸多问题，如丢帧、动作与视频不匹配、相机标定不准确等。团队需要对数据进行切片处理、算法修正和筛选脏数据等操作。目前几百小时的数据远未满足Uranus的需求，模型能力随数据增加而提升的趋势尚未收敛。Uranus计划今年下半年将数据扩展到几千小时量级，明年达到数万到十几万小时。隋伟认为，当前具身行业单纯堆砌数据时长意义不大，同质化数据对模型训练作用有限，数据的质量和多样性更为关键。他以自动驾驶行业为例，该行业关注的是不同时间、空间、场景下采到的片段数量，而非总时长。在具身行业，模型决定下限，数据决定上限。仅通过做好相机标定、对齐动作画面关系和筛选脏数据，就能使成功率提升几十个百分点，而算法难以达到同样效果。目前，许多关键工作仍属于数据工程范畴，尚未到拼模型的时候。