ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

原力灵机GeoVLA框架:赋予机器人3D视觉,突破传统VLA模型局限

时间:2025-12-25 21:36:07来源:互联网编辑:快讯

在通用机器人研发领域,视觉-语言-行动(VLA)模型被视为突破技术瓶颈的关键方向。然而现有主流方案如OpenVLA、RT-2等普遍存在空间感知缺陷,这些依赖二维RGB图像的模型在三维场景中常出现定位偏差,尤其在处理非结构化环境时,对物体深度和空间关系的判断能力显著不足。

针对这一行业痛点,原力灵机团队近日提出创新性的GeoVLA框架,通过构建双流协同机制实现三维几何感知能力的突破。该架构在保留视觉语言模型(VLM)预训练优势的基础上,创新性地引入点云嵌入网络(PEN)与空间感知动作专家(3DAE)两大核心模块,形成语义理解与空间感知的并行处理路径。这种解耦式设计使机器人既能"理解场景语义"又能"精准定位物体",有效解决了传统模型的空间失明问题。

技术实现层面,GeoVLA采用三流协同架构:语义理解流负责解析视觉语言信息,几何感知流通过点云数据构建三维空间模型,动作生成流则整合前两者输出进行决策。这种模块化设计不仅提升了系统可解释性,更通过端到端训练实现了各组件的动态优化。实验数据显示,在仿真环境中该框架的物体定位误差较传统方案降低62%,动作规划效率提升45%。

基准测试验证了技术突破的实质性进展。在LIBERO标准测试集上,GeoVLA以97.7%的任务成功率刷新纪录,较此前最优模型提升8.3个百分点。面对ManiSkill2物理仿真平台设置的复杂场景——包含动态障碍物、多视角干扰和形变物体等挑战,该系统仍保持89.4%的综合成功率。特别在处理透明材质、反光表面等传统难题时,其三维重建精度达到毫米级,展现出显著的技术优势。

真实场景测试进一步证实了系统的鲁棒性。在光照剧烈变化(100-10000lux动态范围)、机械臂负载波动(±30%额定载荷)等极端条件下,GeoVLA的决策稳定性较同类产品提升2.7倍。研究团队特别强调,这种跨场景适应能力源于点云网络的几何先验知识与语言模型的语义泛化能力的有机融合,使得系统既能处理已知场景,也能应对未见过的环境配置。

项目技术文档显示,GeoVLA已开源核心代码与训练框架,开发者可通过指定网址获取完整实现方案。该成果不仅为机器人操作任务提供了新的技术路径,其模块化设计更可扩展至自动驾驶、增强现实等领域,有望推动三维空间智能技术的规模化应用。

更多热门内容