ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

北京大学新突破:双流编码助力AI精准捕捉人体动作细节

时间:2026-06-20 01:01:28来源:互联网编辑:快讯

在人工智能生成人体动作的领域,一项突破性研究正引发广泛关注。北京大学计算机学院与AI机器人公司联合开发的MotionVLA模型,通过创新性的双流编码架构,成功解决了传统方法中动作失真、抖动和漂移等长期存在的技术难题。该研究以预印本形式发布于arXiv平台,论文编号为arXiv:2606.15142,为具身智能和角色动画领域提供了新的技术范式。

传统方法在生成人体动作时,常面临一个根本性挑战:人体运动同时包含慢变的姿态信息(如手臂位置、身体朝向)和快变的速度信息(如关节摩擦、运动节奏),而现有技术往往用单一编码空间处理这两种截然不同的信号。这导致速度细节被当作"噪音"过滤掉,生成的动作虽能摆出正确姿态,却缺乏真实的物理动态,表现为脚部滑动、身体漂移和动作抖动等现象。研究团队通过离散余弦变换分析发现,关节位置信号的能量集中在前5个低频成分,而关节速度信号需要前25个高频成分才能保留80%的信息,这种能量分布的巨大差异是问题根源。

针对这一发现,研究团队提出了"双流频域词元化器"(DSFT)架构。该架构将263维的人体动作特征拆分为190维的"基础流"(包含关节位置和旋转角度)和73维的"物理流"(包含关节速度和根部动态)。基础流仅保留前5个低频成分,物理流则保留前25个高频成分,分别通过独立训练的BPE编码器生成词元序列。这种设计使词元序列长度减少24%,同时将动作分布与真实数据的差异指标(rFID)从0.9461降至0.1868,显著提升了重建质量。

在模型架构方面,MotionVLA以阿里巴巴Qwen3.5大语言模型为基础,通过扩展8,195个运动专用词元构建了统一的生成框架。训练过程分为两个阶段:首先冻结模型参数预热词元嵌入,随后通过LoRA适配器进行微调。推理阶段引入"相位感知约束",确保基础姿态词元先于物理细节词元生成,维持了动作的层次结构。该模型同时支持文本和场景图像输入,在ViMoGen-228K数据集上结合了41,971条野外视频和170,942条光学捕捉数据,在HumanML3D数据集上则使用23,384条纯文本数据进行训练。

实验结果显示,MotionVLA在多个关键指标上超越现有方法。在MBench基准测试中,其动作与条件一致性得分达0.55,较上一代基线提升3.8%;脚部滑动指标降至0.0049,优于对比方法的0.0051。在HumanML3D测试集上,该模型在动作多样性(9.548 vs 真实数据9.503)和多模态性(2.821)指标上表现突出,同时保持了有竞争力的FID和R-Precision得分。人类偏好研究进一步验证了其优势:在500次盲测比较中,64%的评估者认为MotionVLA生成的动作更优,仅14%选择对比方法。

技术验证不仅停留在数字层面。研究团队将MotionVLA部署在宇树科技G1 EDU人形机器人上,实现了"径直走向房间另一端"、"转身然后走到尽头"等复杂动作的实时执行。在MuJoCo物理仿真器中的可视化验证也表明,生成的动作能准确遵循物理规律,避免了传统方法中常见的穿透和漂浮现象。这些实践证明了该技术从虚拟环境到真实硬件的可行性。

尽管取得显著进展,研究团队也指出了当前系统的局限性。例如,20亿参数的骨干网络规模是否最优尚未明确,固定划分基础流和物理流的方式可能不适用于所有场景,生成顺序的固定性也缺乏自适应调整。这些发现为后续研究指明了方向,包括探索更大规模模型、更灵活的分流策略,以及更广泛的数据集应用。

该研究的代码已开源至GitHub的AIGeeksGroup/MotionVLA仓库,为研究人员提供了完整的实现框架。通过分离快慢信号的编码空间,这项工作为人体动作生成领域提供了新的设计哲学:有效的运动表示应尊重信号本身的物理特性,而非简单追求压缩效率。这种思路的转变,可能推动具身智能和人机交互技术迈向新的发展阶段。

更多热门内容
基于宇树G1改装的人形机器人 Pemba 登顶火山,未来将挑战珠峰
配备摄像头、传感器、卫星通信和机载 AI 后,人形机器人可以自主巡查大范围区域,并持续收集环境数据。按照设想,Pemba 将在珠峰大本营和海拔近8000 米的四号营地之间活动,收集电池性能、行走能力、关节受…

2026-06-20

亚马逊自研AI芯片或对外售,英伟达市场格局待变
据媒体报道,亚马逊正洽谈将其定制的Trainium加速器出售给其他公司用于数据中心,这意味着其芯片将直接与主导当前AI市场的英伟达(NASDAQ: NVDA)GPU展开正面竞争。大型AI客户已做出采购承诺:O…

2026-06-19

Claude Code再升级:终端内一键生成交互网页,开启开发者协作新范式
想想一下,当你在终端里跟Claude Code对话写代码,它能把这段工作直接变成一个可交互的HTML网页,生成私密链接,浏览器里打开就能看。 Claude会把你的对话上下文、代码库、连接的工具数据全部吃进去…

2026-06-19

小米Miloco 2.0开源,智能家居迎Agent时代,超级AI管家走进现实
Xiaomi Miloco2.0,就是这样一个核心系统,可以化作Agent的“眼睛、耳朵、记忆”,各类米家设备作为全模态感知入口,Miloco 2.0通过视觉、声音、环境感知实现全屋理解,将用户需求传达给…

2026-06-19