ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

香港中文大学等团队突破创新:机器人借人类视频“解锁”高效学习新路径

时间:2026-06-20 01:15:52来源:互联网编辑:快讯

在机器人学习领域,如何让机器人高效掌握复杂动作一直是核心挑战。传统方法依赖工程师通过操纵杆进行遥控演示,虽能获取精确动作数据,但需耗费大量时间、设备和人力成本。与此同时,互联网上存在海量第一人称视角的人类操作视频,覆盖从家务劳动到专业操作的多样化场景,这些数据若能被有效利用,将为机器人训练提供低成本、高覆盖的解决方案。然而,人类手部与机器人机械臂的结构差异、视频坐标系与机器人坐标系的不匹配,以及视觉重建数据中的噪声干扰,成为横亘在研究者面前的三道难题。

针对这些挑战,由多家科研机构联合开发的ACE-Ego-0框架提出系统性解决方案。该框架通过三维对齐机制统一数据表示:在空间维度上,将所有动作轨迹转换至头部摄像头坐标系,机器人数据通过摄像头标定参数转换,人类视频则以手腕为虚拟原点构建手部坐标系,并模拟机器人夹爪开合度;在时间维度上,采用"按物理时间切块"策略,设定固定时间窗口(如2秒),根据不同数据集的控制频率动态调整预测帧数,确保模型学习的是相同时间跨度的动作;针对形态差异,引入"形态条件化"机制,通过图神经网络将机器人URDF文件编码为形态令牌,人类视频则使用可训练向量替代,使动作预测模块能适应不同身体结构。

数据质量处理是该框架的另一创新点。研究团队设计三层可靠性加权机制:通道级权重根据动作维度特性分配,位置信息赋予满权重,旋转和抓握信息因易受遮挡影响仅获0.001权重;步骤级权重通过帧间位移突变检测动态调整,异常帧权重自动降低;数据集级权重则基于历史质量过滤比例和轨迹平滑度确定。人类视频数据通过加权Huber损失函数提供辅助监督,与机器人数据的标准流匹配损失函数按1:10比例混合训练,有效防止噪声数据干扰精确控制能力。

为验证框架有效性,研究团队构建了包含5929小时原始视频的数据处理流水线。经过数据集标准化、视频语义过滤、三维手部重建、动作参数化和质量控制五阶段处理,最终获得1478小时有效训练数据。其中,三维重建环节采用SAM3追踪模型和HaMeR重建模型,结合全局轨迹优化和VIPE摄像头位姿估计,显著提升轨迹连续性;动作参数化阶段通过阈值检测过滤无效抓握信号,质量控制环节设置完整性、静态、尖峰和双手四道过滤器,确保数据质量。

实验结果显示,ACE-Ego-0在多个基准测试中表现优异。在RoboCasa GR1桌面操作基准上,24个任务平均成功率达72.8%,较此前最佳方法提升2.6个百分点,在"砧板入箱"和"叠放盘子"等任务中成功率分别领先30和44个百分点;在RoboTwin 2.0双臂操作基准上,简单和困难场景下成功率分别达91.12%和90.62%,均创历史新高。真实机器人测试中,ARX双臂平台在六个复杂任务上平均成功率78.3%,较对比方法提升6.6个百分点,特别是在需要双臂紧密协作的"舀咖啡"任务中,成功率领先50个百分点。

消融实验进一步证实各组件必要性:移除形态条件化令牌导致成功率下降1.9个百分点,取消时间对齐使性能降低1.1个百分点,去除可靠性加权机制则造成3.6个百分点跌幅。数据稀缺场景测试显示,在仅用34条机器人演示数据的"扫地积木"任务中,加入419段相关人类视频可使成功率从10%提升至40%,验证了人类视频在弥补数据覆盖不足方面的价值。该研究为机器人学习领域提供了新范式,证明通过结构化对齐和质量感知训练,低成本人类行为数据可成为高精度机器人训练的重要补充。

更多热门内容
2026湾区科技节启幕深圳湾 荣耀人形机器人亮相引爆科创热潮
同时,在深圳湾万象城的荣耀阿尔法全球旗舰店也同步开放体验,进一步拓宽本次科技节的线下体验场景。双方以“AI技术创新”为纽带,打通户外展演、主题市集、旗舰体验等多个场景,创新全民科创体验模式,丰富大湾区科创活动…

2026-06-20