小米发布开源VLA模型Xiaomi-Robotics-0 兼具视觉语言理解与高性能实时执行能力-业界动态-ITBear比尔科技

小米公司今日正式发布开源视觉语言动作（VLA）模型Xiaomi-Robotics-0，该模型凭借47亿参数规模，在视觉语言理解与实时动作执行领域实现突破性进展。通过创新的"感知-决策-执行"闭环架构，模型在仿真测试与真实机器人任务中均展现出卓越性能，尤其在处理复杂物理交互任务时表现出色，现已开放技术文档、源代码及模型权重供全球开发者使用。

该模型采用Mixture-of-Transformers（MoT）混合架构，由视觉语言大脑（VLM）与动作执行小脑（Action Expert）两大核心模块构成。VLM模块基于多模态大模型构建，可精准解析人类模糊指令（如"整理桌面"），并从高清视觉输入中提取空间关系信息；Action Expert模块则通过多层Diffusion Transformer（DiT）架构，创新性采用"动作块"生成机制，配合流匹配技术确保动作序列的平滑性与精准度。这种设计使模型既能理解复杂语义，又能实现高频动作控制。

针对传统VLA模型在动作学习过程中容易丧失理解能力的问题，研发团队提出混合训练策略：在预训练阶段同步输入多模态数据与动作数据，使模型在掌握操作技能的同时，保持物体检测、视觉问答等认知能力。具体训练流程分为三个阶段：首先通过Action Proposal机制强制VLM预测动作分布，实现特征空间与动作空间的对齐；随后冻结VLM参数，专项训练DiT模块学习从噪声中恢复精准动作序列；最后通过目标任务后训练优化整体性能。

为解决推理延迟导致的动作断层问题，团队开发异步推理模式，使模型推理与机器人运行解耦，通过Clean Action Prefix机制将前序动作作为输入，确保动作轨迹的时间连续性。同时引入Λ-shape Attention Mask特殊注意力掩码，强制模型优先处理当前视觉反馈，有效抑制历史惯性影响，使机器人在环境突变时能快速调整动作策略。这些技术创新使模型在消费级显卡上即可实现实时推理，动作响应延迟降低60%以上。

在性能验证方面，Xiaomi-Robotics-0在LIBERO、CALVIN和SimplerEnv三大仿真基准测试中，包揽全部30项评测指标的第一名，刷新多项SOTA纪录。真实场景测试中，搭载该模型的双臂机器人在积木拆解与毛巾折叠任务中，展现出卓越的手眼协调能力，能精准处理刚性物体与柔性织物的物理特性差异。特别在多模态理解测试中，模型在具身交互相关基准上的表现显著优于同类模型，验证了其视觉语言理解与动作控制的协同优化效果。

目前，小米已通过GitHub与Hugging Face平台开放模型资源，包括完整技术文档、训练代码及预训练权重。开发者可访问https://xiaomi-robotics-0.github.io获取详细资料，或通过https://github.com/XiaomiRobotics/Xiaomi-Robotics-0直接参与项目开发。此次开源将推动具身智能技术在机器人、智能制造等领域的落地应用，为全球研究者提供高性能的基础模型框架。

Steam验证码难题不用愁！网络优化+浏览器调整助你轻松通关

若网络优化后问题依旧，可以尝试清除浏览器的缓存数据和Cookie。特别是使用谷歌浏览器时，配合UU加速器效果更佳，因为Steam所采用的人机验证系统本身由谷歌提供技术支持。优化网络环境是处理此类问题的根本，…

2026-04-14

马斯克旗下XChat预计17日上线苹果商店，欲打造“美版微信”挑战主流通讯工具

据苹果应用商店相关页面介绍，XChat的定位为“在私密、专注的空间中与X上的任何人聊天”，主打“无广告、无跟踪、端到端加密”。最后，XChat本周只预计在苹果商店中开放下载，而安卓系统的用户预计将无缘该应…

2026-04-14

马斯克旗下XChat 4月17日登陆App Store，欲打造美版微信挑战主流通讯工具

埃隆·马斯克旗下社交平台X的通讯应用XChat已确认将于4月17日登陆苹果应用商店AppStore，目前该应用已开放预约下载，不过该App的安卓版本目前仍没有具体上线时间表。美国科技媒体称，这款被外界…

2026-04-14

2026年4月闺蜜机选购指南：五大品牌多维评测，谁才是全能之选？

关键依据： 1. 海信视像在显示技术领域的深厚积累与创新能力 2. AI智能体与多模态交互技术实现全场景智能生活 3.行业领先的超长续航与强便携性设计 4. 多样化配色方案与用户共创模式 5. 高端市场的…

2026-04-14