港大阿里联合推出FineVLA框架：机器人执行指令更精细一句话掌控操作细节-业界动态-ITBear科技资讯

在机器人技术领域，如何让机器更精准地理解并执行人类指令一直是研究热点。传统机器人模型虽能完成“将杯子放入篮子”等基础任务，但在执行细节上，如使用哪只手、从哪个方向抓取、抓取杯身还是杯柄等，往往缺乏明确指导。这导致机器人执行任务时灵活性不足，难以适应复杂多变的环境需求。

针对这一难题，香港大学XLANG Lab与阿里巴巴Qwen团队联合提出名为FineVLA的开源框架。该框架通过引入细粒度语言控制，使机器人不仅能完成任务目标，还能按照人类指定的方式执行动作。例如，用户可通过语言指令控制机器人使用左手、从特定角度接近物体、抓取指定部位等。实验数据显示，在RoboTwin仿真环境中，FineVLA的最佳混合策略设置成功率达86.8%/82.5%，较基线模型提升15.0/11.1个百分点；在真实双臂机器人平台上，成功率从49.9%提升至62.7%，在姿态、颜色、接近方向等关键指标上均有显著改善。

现有VLA（视觉-语言-动作）模型虽能根据自然语言完成抓取、放置等操作，但语言监督粒度较粗。例如，不同轨迹可能涉及使用左臂或右臂、绕过障碍物或直线移动等差异，但数据集中往往仅标注“拿起勺子”这类目标级指令。这种标注方式导致模型难以从语言中学习具体的执行约束，如使用哪只手、从哪个方向接近物体等。目前多数机器人数据集缺乏细粒度标注，成为构建可控VLA系统的主要障碍。

FineVLA框架通过构建“数据-模型-评测-策略”的完整闭环，系统性解决三大核心挑战：缺乏细粒度标注基础设施、缺乏评测基准与标注工具、缺乏细粒度语言对策略学习影响的系统性证据。该框架包含四个核心组件：FineVLA-Tool负责将异构数据转化为细粒度标注数据；RoboFine-VLM作为专用视觉语言模型，用于生成机器人动作描述；RoboFine-Bench提供细粒度动作理解评测基准；FineVLA-Policy则验证混合训练策略的有效性。

在数据处理环节，FineVLA-Tool从10个开源数据集中汇总97万条机器人轨迹，通过统一格式、动作规范化、DTW聚类去重等步骤，最终筛选出4.7万条代表性样本。这些样本沿动作序列、执行体、目标物体、接触方式等10个维度进行标注，标注词数从平均9.3个增至96.8个，提升10.4倍。为解决通用视觉语言模型（VLM）难以描述机器人动作细节的问题，研究团队对Qwen3.5-VL模型进行微调，得到能输出步骤级动作描述的RoboFine-VLM，可作为未来数据扩展的可扩展标注器。

评测方面，RoboFine-Bench包含500段视频、32种机器人形态和1.1万个原子事实，设有VQA（视觉问答）和Caption（描述生成）两个轨道。VQA轨道包含1030个问题，覆盖实体定位、动作理解、状态推理三个维度；Caption轨道要求模型生成细粒度动作描述，由大语言模型评判输出与原子事实的对齐程度。实验结果显示，RoboFine-VLM在VQA轨道准确率达68.2%，较通用基线模型提升8个百分点；在Caption硬模式（无语言线索）下得分82.2%，超越GPT-5.4模型。

策略验证环节，研究团队通过控制语言监督类型（仅原始指令/仅细粒度指令/混合指令），系统评估细粒度标注对策略学习的影响。实验表明，细粒度监督不损害任务成功率，且与原始指令形成互补。在RoboTwin仿真中，混合指令策略成功率呈倒U型趋势，最佳比例为细粒度指令与原始指令1:1至1:2，此时成功率达86.8%。真实机器人实验进一步验证，混合指令策略在颜色、姿态、接近方向等指标上提升显著，尤其在训练中未出现的“左手操作右侧目标”等组合任务中，成功率从0提升至10%，显示细粒度监督带来的因子级泛化能力。

百度开源Unlimited OCR新模型：创新机制助力长文档解析，作者身份引猜测

在实验部分，研究团队采用OmniDocBenchv1.5和v1.6评估模型的文档解析能力，并额外构建了覆盖2页至40页以上文档的内部测试集，专门考察其长文档连续解析能力。此后，他又参与了DeepSeek …

2026-06-26

孙正义股东大会火力全开：力挺AI无泡沫，硬刚马斯克太空数据中心计划

在软银年度股东大会上，68岁的孙正义火力全开，驳斥AI泡沫论，宣布软银已启动机器人量产，公开叫板马斯克的“太空数据中心”计划。在日本国内，孙正义确认软银仍是东京电力公司引入外部资本、建设AI数据中心的重要候…

2026-06-26

OpenAI内部大变革：Codex成“主力军”，AI编程工具应用趋势凸显

Codex是OpenAI面向开发者推出的端到端AI编程智能体，不同于简短且自成一体的聊天机器人，Agentic AI可在短时间内独立运行，同时协调工具调用、与环境交互，不断迭代以达成解决方案。OpenAI的…

2026-06-26

从2026到2077：京东“涅槃计划”引领物流变革，见证人机共生的温暖未来

效率突破之后，物流行业的核心命题彻底重构：单纯追求“更快送达”的高速增长时代落幕，如何依托“矩”的全域基准，搭建一套可信、可追溯、可仲裁的全域智能调度体系，成为2077年智能物流的新内核。最初几年，行业普遍…

2026-06-26

港大阿里联合打造FineVLA框架：让机器人精准执行人类细粒度语言指令

数据层：从异构数据到细粒度标注的完整构建流程模型层：用于可扩展机器人视频细粒度标注的RoboFine-VLM 评测层：用VQA和Caption衡量VLM对机器人视频理解与标注的RoboFine-B…

2026-06-26

中国移动携手产业伙伴发布OpenAN项目，推动自智网络迈向L4级新征程

在实际网络运营工作中，多个智能体需要协同完成复杂任务，现有开源多智能体框架在适配网络运营场景时存在不足，如互联网暴露风险高、交互效率低，以及无法完全私有化部署等问题，限制了其大规模工程化应用。未来，中国移动将…

2026-06-26

长春新区具身智能机器人产业：从布局到跃升，科创动能澎湃

作为吉林省具身智能产业发展的先导区、核心区，长春新区锚定产业新高地建设目标，精准布局、精准施策，持续夯实产业发展根基。目前，新区重点培育吉林省吉翼具身智能机器人有限公司、吉林省仿生机器人创新中心有限公司、一…

2026-06-26

从爆仓到智能飞跃：东莞攀爬机器人引领中国物流开启全球提效新征程

我们习以为常的送货速度背后，是中国物流系统一场不动声色的升级与蜕变，在菜鸟东莞跨境仓里，超过100台攀爬机器人正在上演现实版“蜘蛛侠送货”，10秒就能爬上五层楼，拣选效率暴涨了100%。从当初靠人力硬扛…

2026-06-26

2026胡润全球独角兽榜单出炉字节跳动中国第一蚂蚁集团第二

6月26日，胡润研究院正式发布《2026全球独角兽榜》，列出了全球成立于2000年之后、价值10亿美元以上的非上市公司。榜单显示，全球共有来自52个国家、299座城市的1603家独角兽企业上榜，较去年增加80家;全球独角兽总价值达到54万亿元，同比增长43%，创下新高。从国家分布

2026-06-26

小米YU7 C-NCAP测评成绩揭晓：综合得分率93.5% 各项指标表现优异

其综合得分率（93.5%）高于平均水平的88.4%；乘员保护得分率（96.16%）也显著高于92.49%的平均值；在VRU保护方面，83.06%的得分同样高于79.86%的平均线；而主动安全得分率（99.26…

2026-06-26

港大阿里联合推出FineVLA框架：机器人执行指令更精细 一句话掌控操作细节

港大阿里联合推出FineVLA框架：机器人执行指令更精细一句话掌控操作细节