寻找机器人专属“物理语言”：μ₀模型开启具身智能新可能-人工智能-ITBear科技资讯

近期，具身智能与世界模型成为科技领域热议话题，人们普遍认为机器人若要拥有世界模型，或许需训练规模更大的视频预测模型，让机器人在像素空间中“做梦”。毕竟互联网上视频资源丰富，人类各种日常行为如开门、倒水等都有视频记录，若语言模型能从文本中获取知识，机器人能否从视频里了解物理世界呢？这一愿景虽美好，但引发了新的思考：机器人真的要在像素中学习物理吗？

像素作为最直接的数据形式，视频数据量庞大且具有天然的可扩展性。然而，像素处于较低层级，机器人真正关注的并非桌布上花朵的纹理、背景中椅子的颜色或摄像机抖动时像素的变化，而是物体如何运动、哪里发生接触、工具与目标关系的变化等。若训练像素空间的世界模型来预测未来画面，模型可能会耗费大量精力学习光照、纹理、背景和相机运动等内容，这些或许并非机器人最需要的。

这就引出一个类似“鸡生蛋、蛋生鸡”的问题：训练适合机器人学的像素世界模型需要大量机器人数据，可若已有这些数据，为何不直接训练策略呢？世界模型本应解决带动作标签的机器人数据难以扩展的问题，却似乎又回到了“需要更多机器人数据”的困境。

除像素空间的世界模型外，还有潜在世界模型（latent world model）这一研究方向。该方向试图将世界压缩到紧凑的潜在空间，再预测潜在动态，看似更为优雅。但长期以来，对于纯黑盒的潜在空间，人们始终保持职业性的怀疑。在谱方法、表示学习和潜在变量模型等领域，潜在空间在论文和基准测试中表现出色，可一旦想要解释、干预或纠正它，就会出现问题，甚至可能崩溃。而机器人系统需要与真实世界接触，要求可靠、可控且可纠错，一个无法解释且损失降低的模型对机器人来说存在风险。

那么，是否存在一种表示，既不像像素那样低层、昂贵、冗余，又不像黑盒潜在空间那样不可解释、难干预呢？有研究者提出了3D交互轨迹这一概念。它并非像素世界模型，也不是纯潜在世界模型，而是一种符号/结构化世界模型，用于预测物理交互中的三维运动轨迹，具体是预测少量语义交互点（如物体部件、工具、手、接触区域）的运动，包括它们如何运动、朝哪个方向运动以及随时间的变化情况。

这种表示形式“规模较小”，无需生成整张未来图像，也不用复原背景、纹理和光照等信息。同时，它又不是完全黑盒的潜在表示，每条轨迹都对应真实世界中有意义的事物，如物体边缘、工具端点等。这种表示紧凑且易于扩展，结构清晰便于解释。

从更宏观的角度看，机器人需要属于自己的符号空间。大型语言模型（LLM）能够扩展，很大程度上得益于人类发明了文字这一统一空间，用于记录、压缩、交换和复用知识，LLM基于此训练自然受益。但机器人世界复杂多样，不同机器人本体、动作空间、传感器、工具、任务和环境差异巨大，一种机器人的动作标签无法直接应用于另一种机器人，人类手部视频也难以转化为机器人可执行的关节指令。因此，对于机器人学而言，关键问题或许并非是否需要世界模型，而是什么是机器人学的“文字”，怎样的符号空间能让机器人跨本体、跨场景、跨任务复用物理知识。

3D交互轨迹可能是机器人的一种物理语言，它描述的是物体在交互中的运动方式，而非物体的名称。它提取了人类视频和机器人视频中的共同部分，即物体、工具、接触点的三维运动结构。为学习这种表示，研究者开发了数据引擎TraceExtract，将普通视频转换为轨迹监督数据，通过确定“什么在动”“它在哪里动”“它怎么动”这三个步骤，从仅包含视频的数据中学习物理交互，减少对昂贵机器人动作标签的依赖。

这对于学术实验室意义重大。学术实验室通常没有工业级的计算资源、内部私有大数据资产以及大量机器人持续采集数据，主要依靠开源数据、学校计算集群和学生的努力。因此，学术实验室必须思考何种表示真正高效。此次研究的预训练数据规模约为20万集、1300万帧、15.7TB，对于学术集群来说规模不小，但与工业级视觉语言动作（VLA）模型的数据规模相比，并非依靠“大力出奇迹”。

该研究采用的策略是让已有的视觉语言主干网络保留语义知识，让单独的轨迹专家学习物理运动，即语义和动态分别由预训练的基础模型和轨迹空间世界模型处理。更为关键的是，世界模型的预训练阶段无需动作标签，之后将世界模型冻结，仅在上面训练一个轻量级的动作专家，将轨迹特征转换为机器人动作。若轨迹空间世界模型真正学到了可复用的物理运动先验，那么下游的机器人控制应该能够利用它。

实验结果令人振奋。在轨迹预测方面，该模型在多个指标和预测范围内表现出色，比一些强大的动作预测接口（API）模型更擅长解决具体的物理预测问题，且推理速度快，单次预测约0.29秒。在仿真和真实机器人实验中，冻结该模型后连接轻量级动作专家，机器人表现与强大的VLA策略相当，在真实机器人评测中，其平均成功率超过了π₀.₅。

这一成果的重要意义并非在于创造了一个最终的机器人策略，而在于证明了轨迹空间预测所学到的知识能够被机器人控制复用。这表明世界模型的价值不一定在于生成更逼真的视频，机器人或许不需要在像素中做更清晰的“梦”，而是更需要一种可迁移、可解释、可干预的物理表示。

当然，3D交互轨迹并非唯一的物理语言，只是初步探索。未来还可加入更多物理先验，如接触图、力/扭矩轨迹、触觉场、以物体为中心的附属关系图、约束条件、能量景观等。这些内容虽不像像素那样“通用”，但可能更接近机器人真正需要理解的世界。具身智能的扩展不应仅局限于更多数据、更大模型和更长训练时间，在扩展之前，更应思考表示空间是否选择正确，若符号空间选择错误，扩展规模越大，可能越快将资源消耗在错误方向上。机器人学习不应只是在像素中复刻视频世界，也不应将物理交互全部置于不可解释的潜在空间中，而是需要寻找机器人学自己的符号空间。

科技巨头联手出击！5亿美元预算助力新机构Intercept向感冒流感宣战

2026-06-28

八年磨一剑！胜科纳米iWUDI™系统亮相，AI赋能半导体产业开启新征程

2026-06-28

奥地利力促欧盟引入Anthropic，以应对美国AI限制增强技术自主性

2026-06-28

AI浪潮下社工行业迎大考：国内外专家沪上共议技术与人本如何共融

事实上，技术仓促落地、行业被动承接的教训，早已在海外社工领域显现，其本质是对社会工作专业价值的消解。他发现，厂商宣称AI工具可帮社工每周节省8小时文档写作时间，但实际落地中问题丛生：撰写文档本身是社工进行意…

2026-06-28

算力时代下，艺康集团以绿色数智化探索产业转型新路径

在这一背景下，深耕水、卫生、感染预防解决方案和服务领域的艺康集团，正通过将人工智能、物联网与数据技术深度融合，推动传统服务模式向“数智化+可持续”的方向转型。与此同时，其针对工业及商业场景开发的艺康数智汇…

2026-06-28

丁文超的具身智能创业路：从“天才少年”到行业破局者的敏捷突围

2024年VLA很火，但我们觉得单纯把一个action的头拼进VLM里，不是终极架构，所以提出了AI World Engine(AWE)；然后是应用，模型早期要找到ROI最大、同时适合这一代具身智能的场景，我…

2026-06-28

全国首台自研重载可伸缩盾构换刀机器人助力厦金大桥厦门段隧道建设迈入关键期

图为从上方俯拍的“厦金号”盾构机。本次始发的左线隧道长1.33公里，施工挑战将超右线——隧道紧邻海岸线，地下水位高、基岩起伏剧烈，周边建筑密集、管线错综复杂，且左右线最小净距仅5米，施工空间极其局促。据代建…

2026-06-28

法拉第未来发布工业级轮臂机器人Faber，全新Futurist机器人也同步亮相

IT之家 6 月 28 日消息，法拉第未来宣布于 6 月 23 日在芝加哥 Automate 机器人与自动化展会上发布“全美首款工业级轮臂机器人Faber”，并预告 FF EAI 机器人工业生态战略，称“六…

2026-06-28

真空钎焊厂家怎么选？瑞通精密：航空航天医疗机器人领域优选伙伴

本节评估框架围绕企业技术积淀、设备产能、质量管控体系、行业适配经验及客户反馈等维度展开，建议采购决策者重点关注企业是否具备核心工艺专利、批量生产良品率、密封性指标等关键验证参数，以匹配复杂工况下的零部件加工需…

2026-06-28

DeepSeek新突破DSpark：10个核心概念解析，解锁大模型推理加速新路径

2026-06-28