香港中文大学等团队突破创新：机器人借人类视频“解锁”高效学习新路径-人工智能-ITBear科技资讯

在机器人学习领域，如何让机器人高效掌握复杂动作一直是核心挑战。传统方法依赖工程师通过操纵杆进行遥控演示，虽能获取精确动作数据，但需耗费大量时间、设备和人力成本。与此同时，互联网上存在海量第一人称视角的人类操作视频，覆盖从家务劳动到专业操作的多样化场景，这些数据若能被有效利用，将为机器人训练提供低成本、高覆盖的解决方案。然而，人类手部与机器人机械臂的结构差异、视频坐标系与机器人坐标系的不匹配，以及视觉重建数据中的噪声干扰，成为横亘在研究者面前的三道难题。

针对这些挑战，由多家科研机构联合开发的ACE-Ego-0框架提出系统性解决方案。该框架通过三维对齐机制统一数据表示：在空间维度上，将所有动作轨迹转换至头部摄像头坐标系，机器人数据通过摄像头标定参数转换，人类视频则以手腕为虚拟原点构建手部坐标系，并模拟机器人夹爪开合度；在时间维度上，采用"按物理时间切块"策略，设定固定时间窗口（如2秒），根据不同数据集的控制频率动态调整预测帧数，确保模型学习的是相同时间跨度的动作；针对形态差异，引入"形态条件化"机制，通过图神经网络将机器人URDF文件编码为形态令牌，人类视频则使用可训练向量替代，使动作预测模块能适应不同身体结构。

数据质量处理是该框架的另一创新点。研究团队设计三层可靠性加权机制：通道级权重根据动作维度特性分配，位置信息赋予满权重，旋转和抓握信息因易受遮挡影响仅获0.001权重；步骤级权重通过帧间位移突变检测动态调整，异常帧权重自动降低；数据集级权重则基于历史质量过滤比例和轨迹平滑度确定。人类视频数据通过加权Huber损失函数提供辅助监督，与机器人数据的标准流匹配损失函数按1:10比例混合训练，有效防止噪声数据干扰精确控制能力。

为验证框架有效性，研究团队构建了包含5929小时原始视频的数据处理流水线。经过数据集标准化、视频语义过滤、三维手部重建、动作参数化和质量控制五阶段处理，最终获得1478小时有效训练数据。其中，三维重建环节采用SAM3追踪模型和HaMeR重建模型，结合全局轨迹优化和VIPE摄像头位姿估计，显著提升轨迹连续性；动作参数化阶段通过阈值检测过滤无效抓握信号，质量控制环节设置完整性、静态、尖峰和双手四道过滤器，确保数据质量。

实验结果显示，ACE-Ego-0在多个基准测试中表现优异。在RoboCasa GR1桌面操作基准上，24个任务平均成功率达72.8%，较此前最佳方法提升2.6个百分点，在"砧板入箱"和"叠放盘子"等任务中成功率分别领先30和44个百分点；在RoboTwin 2.0双臂操作基准上，简单和困难场景下成功率分别达91.12%和90.62%，均创历史新高。真实机器人测试中，ARX双臂平台在六个复杂任务上平均成功率78.3%，较对比方法提升6.6个百分点，特别是在需要双臂紧密协作的"舀咖啡"任务中，成功率领先50个百分点。

消融实验进一步证实各组件必要性：移除形态条件化令牌导致成功率下降1.9个百分点，取消时间对齐使性能降低1.1个百分点，去除可靠性加权机制则造成3.6个百分点跌幅。数据稀缺场景测试显示，在仅用34条机器人演示数据的"扫地积木"任务中，加入419段相关人类视频可使成功率从10%提升至40%，验证了人类视频在弥补数据覆盖不足方面的价值。该研究为机器人学习领域提供了新范式，证明通过结构化对齐和质量感知训练，低成本人类行为数据可成为高精度机器人训练的重要补充。