自变量机器人近日宣布,其成功研发出一款名为X-Tokenizer的跨模态具身动作分词器。这一创新技术将视觉-语言-动作(VLA)模型中的动作离散化过程,从传统的“压缩-重建”模式,转变为“多模态推理与动作语义接口学习”的新范式。
据技术团队介绍,动作分词器的核心功能在于对动作进行精准拆分,生成具有明确语义的动作单元(Token)。这一特性不仅提升了动作表达的清晰度,还能显著加速预训练模型的收敛速度,进而优化VLA模型生成连续动作的流畅性与准确性。该成果标志着自变量机器人在多模态交互领域取得了重要突破。
传统方法中,动作离散化往往依赖简单的数据压缩与重建,难以捕捉动作背后的语义信息。而X-Tokenizer通过构建多模态推理框架,将动作与语言、视觉信息深度融合,使拆分出的动作单元具备更强的语义表征能力。这一改进直接提升了VLA模型在实际应用中的表现,例如机器人操作、虚拟角色交互等场景的响应效率与动作自然度均得到增强。
目前,自变量机器人已将X-Tokenizer应用于多个研发项目,并计划进一步优化其跨模态对齐能力。技术团队表示,未来将持续探索动作语义与多模态数据的关联机制,为智能体提供更高效、更精准的动作生成解决方案。