ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

港大阿里联合打造FineVLA框架:让机器人精准执行人类细粒度语言指令

时间:2026-06-26 15:57:08来源:快讯编辑:快讯

在机器人技术领域,尽管现有模型已能根据“把杯子放进篮子”这类简单指令完成基础操作,但如何精准控制执行细节——比如用哪只手操作、从哪个角度抓取、抓取杯身还是杯柄——仍是待解难题。这类关键细节在现有机器人数据集中普遍缺乏标注,导致模型难以理解人类对执行过程的精细化要求。

针对这一痛点,香港大学XLANG Lab与阿里巴巴Qwen团队联合推出开源框架FineVLA,通过构建“数据-模型-评测-策略”完整闭环,首次实现机器人对自然语言中执行细节的精准响应。该框架不仅能让机器人完成任务,更能通过语言指令控制具体操作方式,在仿真与真实场景中均取得显著提升:RoboTwin仿真环境中成功率达86.8%/82.5%(较基线提升15.0/11.1个百分点),真实双臂机器人操作中关键指标提升12.8个百分点,在姿态控制、颜色识别、接近方向等维度均实现量化突破。

传统VLA(视觉-语言-动作)模型面临的核心矛盾在于语言监督粒度与动作控制需求的不匹配。以“拿起勺子”为例,现有数据集通常仅标注“成功拿起”这一目标级指令,却忽略左臂/右臂选择、障碍物规避路径等过程级细节。这种粗粒度标注导致模型虽能完成任务,却无法理解人类对执行方式的隐性要求。研究团队通过分析发现,超过80%的开源机器人数据集缺乏动作序列、接触区域等十项关键维度的标注,成为制约可控性提升的主要瓶颈。

FineVLA的技术突破始于数据层重构。研究团队开发的FineVLA-Tool工具链从10个开源数据集中整合97万条异构轨迹,通过动态时间规整算法去重后保留4.7万条代表性样本,并沿执行体、接触方式、轨迹方向等十维度进行细粒度标注。经人工审核验证,标注后指令的平均词数从9.3增至96.8,覆盖度提升10.4倍。这种结构化标注不仅消除了监督歧义,更为后续模型训练提供了高质量语料。

在模型层,研究团队对Qwen3.5-VL进行全参数微调,开发出专用标注器RoboFine-VLM。该模型能自动生成覆盖十控制维度的步骤级描述,在细粒度视频理解评测中,其VQA轨道准确率达68.2%,较通用基线GPT-5.4提升8个百分点;Caption轨道在hard模式下(无语言提示)仍保持82.2%的覆盖率,证明其具备从视觉信号中自主推断操作过程的能力。为确保评测客观性,团队构建的RoboFine-Bench包含500段测试视频与1.1万个原子事实,通过实体定位、动作理解、状态推理三轴评测,形成机器人视频理解的新标准。

策略层的创新体现在混合训练范式的设计。实验表明,单纯使用细粒度指令(FG-only)虽在特定场景下优于目标级指令(Raw-only),但最佳效果需两者结合。当FG:Raw指令比例为1:2至1:1时,模型在RoboTwin仿真中达到性能峰值,证明目标级指令提供任务框架、细粒度指令指导执行细节的互补机制。真实机器人实验进一步验证这一结论:在CobotMagic双臂平台上,混合训练使颜色识别准确率从22%提升至40%,姿态控制从24%提升至47%,接近方向成功率从60%增至78%,尤其在训练未覆盖的“左手操作右侧目标”等组合任务中,成功率从0提升至10%,显示因子级泛化能力的显著增强。

该框架的开源价值体现在四个可复用方向:提供从异构数据到细粒度标注的完整工具链、开发专用视频标注模型RoboFine-VLM、建立细粒度理解评测基准RoboFine-Bench、验证混合训练有效性的策略配方。研究团队强调,细粒度语言监督并非要替代目标级指令,而是通过补充执行细节信息,构建更符合人类交互习惯的机器人控制系统。这一范式转变或将推动机器人从“完成指令”向“理解意图”的质变发展。

更多热门内容
中国移动携手产业伙伴发布OpenAN项目,推动自智网络迈向L4级新征程
在实际网络运营工作中,多个智能体需要协同完成复杂任务,现有开源多智能体框架在适配网络运营场景时存在不足,如互联网暴露风险高、交互效率低,以及无法完全私有化部署等问题,限制了其大规模工程化应用。未来,中国移动将…

2026-06-26

长春新区具身智能机器人产业:从布局到跃升,科创动能澎湃
作为吉林省具身智能产业发展的先导区、核心区,长春新区锚定产业新高地建设目标,精准布局、精准施策,持续夯实产业发展根基。目前,新区重点培育吉林省吉翼具身智能机器人有限公司、吉林省仿生机器人创新中心有限公司、一…

2026-06-26

从爆仓到智能飞跃:东莞攀爬机器人引领中国物流开启全球提效新征程
我们习以为常的送货速度背后,是中国物流系统一场不动声色的升级与蜕变,在菜鸟东莞跨境仓里,超过100台攀爬机器人正在上演现实版“蜘蛛侠送货”,10秒就能爬上五层楼,拣选效率暴涨了100%。 从当初靠人力硬扛…

2026-06-26

2026胡润全球独角兽榜单出炉 字节跳动中国第一 蚂蚁集团第二
6月26日,胡润研究院正式发布《2026全球独角兽榜》,列出了全球成立于2000年之后、价值10亿美元以上的非上市公司。榜单显示,全球共有来自52个国家、299座城市的1603家独角兽企业上榜,较去年增加80家;全球独角兽总价值达到54万亿元,同比增长43%,创下新高。从国家分布

2026-06-26

小米YU7 C-NCAP测评成绩揭晓:综合得分率93.5% 各项指标表现优异
其综合得分率(93.5%)高于平均水平的88.4%;乘员保护得分率(96.16%)也显著高于92.49%的平均值;在VRU保护方面,83.06%的得分同样高于79.86%的平均线;而主动安全得分率(99.26…

2026-06-26

DeepSeek大规模招聘,所有部门扩大一倍
6月25日晚,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)发布招聘信息,表示计划将所有部门的规模扩大至少一倍。据了解,此次招聘涵盖算法、研发、运维、产品、数据工程师及职能等7大岗位类别,共计开放33个岗位,工作地点覆盖北京、杭州两大核心城市。本次所有

2026-06-26

中国移动携手伙伴发布OpenAN,为通信行业智能体协同提供开源新方案
在实际网络运营工作中,多个智能体需要协同完成复杂任务,现有开源多智能体框架在适配网络运营场景时存在不足,如互联网暴露风险高、交互效率低,以及无法完全私有化部署等问题,限制了其大规模工程化应用。未来,中国移动将…

2026-06-26