小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录-业界动态-ITBear科技资讯

小米近日在具身智能领域迈出重要一步，正式推出并开源首款机器人视觉语言动作（VLA）大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合，在消费级显卡上即可完成毫秒级推理，成功突破传统VLA模型因延迟导致的物理世界交互瓶颈，多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题，研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型（VLM）作为认知中枢，可解析人类模糊指令并精准识别三维空间关系；多层扩散Transformer（DiT）构成的运动控制模块则通过"动作块"生成技术，将复杂动作拆解为高频执行单元，配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令，又能流畅完成抓取、递送等连续动作。

在训练体系构建上，小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系，在冻结VLM参数的同时专项优化DiT模块，确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题，Clean Action Prefix技术保障动作序列的连贯性，Λ-shape注意力掩码则使模型更聚焦实时视觉反馈，环境适应速度提升3倍以上。

目前该项目已实现全面开源，技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划，重点引进多模态学习、运动控制、人机交互等领域的顶尖专家，持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线，更为工业界落地具身智能应用扫清关键技术障碍。