ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

小米发布并开源首款机器人VLA大模型Xiaomi-Robotics-0 刷新具身智能多项纪录

时间:2026-02-12 19:16:08来源:快讯编辑:快讯

小米近日在具身智能领域迈出重要一步,正式推出并开源首款机器人视觉语言动作(VLA)大模型Xiaomi-Robotics-0。该模型以47亿参数规模实现视觉语言理解与实时动作执行的深度融合,在消费级显卡上即可完成毫秒级推理,成功突破传统VLA模型因延迟导致的物理世界交互瓶颈,多项性能指标刷新行业纪录。

针对现有VLA模型普遍存在的"大脑发达但肢体迟缓"问题,研发团队创新采用MoT混合架构构建双核心体系。其中多模态视觉语言大模型(VLM)作为认知中枢,可解析人类模糊指令并精准识别三维空间关系;多层扩散Transformer(DiT)构成的运动控制模块则通过"动作块"生成技术,将复杂动作拆解为高频执行单元,配合流匹配算法实现肢体运动的毫米级精度控制。这种"认知-执行"分离设计使机器人既能理解"把水杯递给穿红衣服的人"这类抽象指令,又能流畅完成抓取、递送等连续动作。

在训练体系构建上,小米开创性设计两阶段强化方案。跨模态预训练阶段通过Action Proposal机制建立视觉特征与动作空间的映射关系,在冻结VLM参数的同时专项优化DiT模块,确保模型同时具备物体识别、逻辑推理等基础能力与操作技能。后训练阶段引入异步推理框架破解真机部署难题,Clean Action Prefix技术保障动作序列的连贯性,Λ-shape注意力掩码则使模型更聚焦实时视觉反馈,环境适应速度提升3倍以上。

目前该项目已实现全面开源,技术文档、训练代码及预训练权重均对外开放。小米机器人实验室同步启动全球人才招募计划,重点引进多模态学习、运动控制、人机交互等领域的顶尖专家,持续探索物理世界与数字智能的融合边界。此次开源不仅为学术界提供先进研究基线,更为工业界落地具身智能应用扫清关键技术障碍。

更多热门内容
雷军用私家车装600斤车厘子被指违规 徐洁云:园区内部路
6月13日消息,昨日,小米科技有限责任公司创始人雷军晒出视频“带1000斤车厘子慰问工程师”。视频中,雷军展示自己在一辆车中放了120箱车厘子,共600斤,放满了后备箱、前备箱及后排座位。然而有媒体报道称,不少网友在视频中指出此行为存在多处交通安全隐患,属于违规载货。

2026-06-13