ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

寻找机器人专属“物理语言”:μ₀模型开启具身智能新可能

时间:2026-06-28 22:21:08来源:互联网编辑:快讯

近期,具身智能与世界模型成为科技领域热议话题,人们普遍认为机器人若要拥有世界模型,或许需训练规模更大的视频预测模型,让机器人在像素空间中“做梦”。毕竟互联网上视频资源丰富,人类各种日常行为如开门、倒水等都有视频记录,若语言模型能从文本中获取知识,机器人能否从视频里了解物理世界呢?这一愿景虽美好,但引发了新的思考:机器人真的要在像素中学习物理吗?

像素作为最直接的数据形式,视频数据量庞大且具有天然的可扩展性。然而,像素处于较低层级,机器人真正关注的并非桌布上花朵的纹理、背景中椅子的颜色或摄像机抖动时像素的变化,而是物体如何运动、哪里发生接触、工具与目标关系的变化等。若训练像素空间的世界模型来预测未来画面,模型可能会耗费大量精力学习光照、纹理、背景和相机运动等内容,这些或许并非机器人最需要的。

这就引出一个类似“鸡生蛋、蛋生鸡”的问题:训练适合机器人学的像素世界模型需要大量机器人数据,可若已有这些数据,为何不直接训练策略呢?世界模型本应解决带动作标签的机器人数据难以扩展的问题,却似乎又回到了“需要更多机器人数据”的困境。

除像素空间的世界模型外,还有潜在世界模型(latent world model)这一研究方向。该方向试图将世界压缩到紧凑的潜在空间,再预测潜在动态,看似更为优雅。但长期以来,对于纯黑盒的潜在空间,人们始终保持职业性的怀疑。在谱方法、表示学习和潜在变量模型等领域,潜在空间在论文和基准测试中表现出色,可一旦想要解释、干预或纠正它,就会出现问题,甚至可能崩溃。而机器人系统需要与真实世界接触,要求可靠、可控且可纠错,一个无法解释且损失降低的模型对机器人来说存在风险。

那么,是否存在一种表示,既不像像素那样低层、昂贵、冗余,又不像黑盒潜在空间那样不可解释、难干预呢?有研究者提出了3D交互轨迹这一概念。它并非像素世界模型,也不是纯潜在世界模型,而是一种符号/结构化世界模型,用于预测物理交互中的三维运动轨迹,具体是预测少量语义交互点(如物体部件、工具、手、接触区域)的运动,包括它们如何运动、朝哪个方向运动以及随时间的变化情况。

这种表示形式“规模较小”,无需生成整张未来图像,也不用复原背景、纹理和光照等信息。同时,它又不是完全黑盒的潜在表示,每条轨迹都对应真实世界中有意义的事物,如物体边缘、工具端点等。这种表示紧凑且易于扩展,结构清晰便于解释。

从更宏观的角度看,机器人需要属于自己的符号空间。大型语言模型(LLM)能够扩展,很大程度上得益于人类发明了文字这一统一空间,用于记录、压缩、交换和复用知识,LLM基于此训练自然受益。但机器人世界复杂多样,不同机器人本体、动作空间、传感器、工具、任务和环境差异巨大,一种机器人的动作标签无法直接应用于另一种机器人,人类手部视频也难以转化为机器人可执行的关节指令。因此,对于机器人学而言,关键问题或许并非是否需要世界模型,而是什么是机器人学的“文字”,怎样的符号空间能让机器人跨本体、跨场景、跨任务复用物理知识。

3D交互轨迹可能是机器人的一种物理语言,它描述的是物体在交互中的运动方式,而非物体的名称。它提取了人类视频和机器人视频中的共同部分,即物体、工具、接触点的三维运动结构。为学习这种表示,研究者开发了数据引擎TraceExtract,将普通视频转换为轨迹监督数据,通过确定“什么在动”“它在哪里动”“它怎么动”这三个步骤,从仅包含视频的数据中学习物理交互,减少对昂贵机器人动作标签的依赖。

这对于学术实验室意义重大。学术实验室通常没有工业级的计算资源、内部私有大数据资产以及大量机器人持续采集数据,主要依靠开源数据、学校计算集群和学生的努力。因此,学术实验室必须思考何种表示真正高效。此次研究的预训练数据规模约为20万集、1300万帧、15.7TB,对于学术集群来说规模不小,但与工业级视觉语言动作(VLA)模型的数据规模相比,并非依靠“大力出奇迹”。

该研究采用的策略是让已有的视觉语言主干网络保留语义知识,让单独的轨迹专家学习物理运动,即语义和动态分别由预训练的基础模型和轨迹空间世界模型处理。更为关键的是,世界模型的预训练阶段无需动作标签,之后将世界模型冻结,仅在上面训练一个轻量级的动作专家,将轨迹特征转换为机器人动作。若轨迹空间世界模型真正学到了可复用的物理运动先验,那么下游的机器人控制应该能够利用它。

实验结果令人振奋。在轨迹预测方面,该模型在多个指标和预测范围内表现出色,比一些强大的动作预测接口(API)模型更擅长解决具体的物理预测问题,且推理速度快,单次预测约0.29秒。在仿真和真实机器人实验中,冻结该模型后连接轻量级动作专家,机器人表现与强大的VLA策略相当,在真实机器人评测中,其平均成功率超过了π₀.₅。

这一成果的重要意义并非在于创造了一个最终的机器人策略,而在于证明了轨迹空间预测所学到的知识能够被机器人控制复用。这表明世界模型的价值不一定在于生成更逼真的视频,机器人或许不需要在像素中做更清晰的“梦”,而是更需要一种可迁移、可解释、可干预的物理表示。

当然,3D交互轨迹并非唯一的物理语言,只是初步探索。未来还可加入更多物理先验,如接触图、力/扭矩轨迹、触觉场、以物体为中心的附属关系图、约束条件、能量景观等。这些内容虽不像像素那样“通用”,但可能更接近机器人真正需要理解的世界。具身智能的扩展不应仅局限于更多数据、更大模型和更长训练时间,在扩展之前,更应思考表示空间是否选择正确,若符号空间选择错误,扩展规模越大,可能越快将资源消耗在错误方向上。机器人学习不应只是在像素中复刻视频世界,也不应将物理交互全部置于不可解释的潜在空间中,而是需要寻找机器人学自己的符号空间。

更多热门内容
AI浪潮下社工行业迎大考:国内外专家沪上共议技术与人本如何共融
事实上,技术仓促落地、行业被动承接的教训,早已在海外社工领域显现,其本质是对社会工作专业价值的消解。他发现,厂商宣称AI工具可帮社工每周节省8小时文档写作时间,但实际落地中问题丛生:撰写文档本身是社工进行意…

2026-06-28

算力时代下,艺康集团以绿色数智化探索产业转型新路径
在这一背景下,深耕水、卫生、感染预防解决方案和服务领域的艺康集团,正通过将人工智能、物联网与数据技术深度融合,推动传统服务模式向“数智化+可持续”的方向转型。 与此同时,其针对工业及商业场景开发的艺康数智汇…

2026-06-28

丁文超的具身智能创业路:从“天才少年”到行业破局者的敏捷突围
2024年VLA很火,但我们觉得单纯把一个action的头拼进VLM里,不是终极架构,所以提出了AI World Engine(AWE);然后是应用,模型早期要找到ROI最大、同时适合这一代具身智能的场景,我…

2026-06-28

全国首台自研重载可伸缩盾构换刀机器人助力 厦金大桥厦门段隧道建设迈入关键期
图为从上方俯拍的“厦金号”盾构机。本次始发的左线隧道长1.33公里,施工挑战将超右线——隧道紧邻海岸线,地下水位高、基岩起伏剧烈,周边建筑密集、管线错综复杂,且左右线最小净距仅5米,施工空间极其局促。 据代建…

2026-06-28

法拉第未来发布工业级轮臂机器人Faber,全新Futurist机器人也同步亮相
IT之家 6 月 28 日消息,法拉第未来宣布于 6 月 23 日在芝加哥 Automate 机器人与自动化展会上发布“全美首款工业级轮臂机器人Faber”,并预告 FF EAI 机器人工业生态战略,称“六…

2026-06-28

真空钎焊厂家怎么选?瑞通精密:航空航天医疗机器人领域优选伙伴
本节评估框架围绕企业技术积淀、设备产能、质量管控体系、行业适配经验及客户反馈等维度展开,建议采购决策者重点关注企业是否具备核心工艺专利、批量生产良品率、密封性指标等关键验证参数,以匹配复杂工况下的零部件加工需…

2026-06-28