具身人工智能领域迎来重要进展,初创公司Spirit AI宣布其最新研发的视觉-语言-动作模型Spirit v1.5在RoboChallenge基准测试中夺得综合排名首位。该团队同步公开了模型权重、核心代码及完整评测流程,为全球研究机构提供可直接复用的技术框架。
RoboChallenge作为具身AI领域的权威评测平台,由Dexmal与Hugging Face等机构联合发起,专注于评估机器人系统在真实场景中的执行能力。此次测试采用Table30任务集,涵盖物体精准插入、复杂食物处理、多工具协同操作等30项日常任务,并在单臂/双臂机器人及多种感知方案下进行交叉验证,重点考察三维空间定位、动态遮挡处理、时序逻辑推理等关键能力。
Spirit v1.5采用突破性的端到端VLA架构,将视觉感知、语义理解与动作决策整合为统一神经网络。这种设计消除了传统模块化系统中信息传递的误差累积,在需要多步骤协同的复杂任务中展现出显著优势。实验数据显示,该模型在跨机器人平台迁移任务中的成功率较模块化系统提升37%,在长时序操作中的稳定性指标达到行业领先水平。
数据采集策略成为该模型的核心创新点。研发团队摒弃主流的"高精度脚本化示范"模式,转而通过开放式目标驱动交互收集训练数据。操作人员仅设定高层任务目标,由机器人自主探索多种实现路径,自然产生技能组合切换、异常状态恢复等复杂行为模式。这种数据采集方式使单次训练样本包含平均5.2种不同技能组合,较传统方法提升3倍以上。
消融实验验证了数据多样性的关键作用。在相同数据规模下,采用非脚本化训练的模型在新任务微调阶段的收敛速度提升42%,验证误差降低28%。研究团队指出,具身智能的泛化能力可能更依赖于接触环境的丰富程度,而非特定任务的训练纯度。这一发现为行业数据采集标准提供了新思路。
开源资源包含完整的模型训练框架、推理部署代码及RoboChallenge评测套件,支持在NVIDIA Jetson、Intel RealSense等主流硬件平台快速部署。技术文档详细披露了模型架构设计、数据预处理流程及超参数配置,为开发者提供全链条技术参考。目前相关资源已在GitHub及Hugging Face平台开放下载,配套技术博客同步发布实施细节。