北京大学新突破：双流编码助力AI精准捕捉人体动作细节-业界动态-ITBear科技资讯

在人工智能生成人体动作的领域，一项突破性研究正引发广泛关注。北京大学计算机学院与AI机器人公司联合开发的MotionVLA模型，通过创新性的双流编码架构，成功解决了传统方法中动作失真、抖动和漂移等长期存在的技术难题。该研究以预印本形式发布于arXiv平台，论文编号为arXiv:2606.15142，为具身智能和角色动画领域提供了新的技术范式。

传统方法在生成人体动作时，常面临一个根本性挑战：人体运动同时包含慢变的姿态信息（如手臂位置、身体朝向）和快变的速度信息（如关节摩擦、运动节奏），而现有技术往往用单一编码空间处理这两种截然不同的信号。这导致速度细节被当作"噪音"过滤掉，生成的动作虽能摆出正确姿态，却缺乏真实的物理动态，表现为脚部滑动、身体漂移和动作抖动等现象。研究团队通过离散余弦变换分析发现，关节位置信号的能量集中在前5个低频成分，而关节速度信号需要前25个高频成分才能保留80%的信息，这种能量分布的巨大差异是问题根源。

针对这一发现，研究团队提出了"双流频域词元化器"（DSFT）架构。该架构将263维的人体动作特征拆分为190维的"基础流"（包含关节位置和旋转角度）和73维的"物理流"（包含关节速度和根部动态）。基础流仅保留前5个低频成分，物理流则保留前25个高频成分，分别通过独立训练的BPE编码器生成词元序列。这种设计使词元序列长度减少24%，同时将动作分布与真实数据的差异指标（rFID）从0.9461降至0.1868，显著提升了重建质量。

在模型架构方面，MotionVLA以阿里巴巴Qwen3.5大语言模型为基础，通过扩展8,195个运动专用词元构建了统一的生成框架。训练过程分为两个阶段：首先冻结模型参数预热词元嵌入，随后通过LoRA适配器进行微调。推理阶段引入"相位感知约束"，确保基础姿态词元先于物理细节词元生成，维持了动作的层次结构。该模型同时支持文本和场景图像输入，在ViMoGen-228K数据集上结合了41,971条野外视频和170,942条光学捕捉数据，在HumanML3D数据集上则使用23,384条纯文本数据进行训练。

实验结果显示，MotionVLA在多个关键指标上超越现有方法。在MBench基准测试中，其动作与条件一致性得分达0.55，较上一代基线提升3.8%；脚部滑动指标降至0.0049，优于对比方法的0.0051。在HumanML3D测试集上，该模型在动作多样性（9.548 vs 真实数据9.503）和多模态性（2.821）指标上表现突出，同时保持了有竞争力的FID和R-Precision得分。人类偏好研究进一步验证了其优势：在500次盲测比较中，64%的评估者认为MotionVLA生成的动作更优，仅14%选择对比方法。

技术验证不仅停留在数字层面。研究团队将MotionVLA部署在宇树科技G1 EDU人形机器人上，实现了"径直走向房间另一端"、"转身然后走到尽头"等复杂动作的实时执行。在MuJoCo物理仿真器中的可视化验证也表明，生成的动作能准确遵循物理规律，避免了传统方法中常见的穿透和漂浮现象。这些实践证明了该技术从虚拟环境到真实硬件的可行性。

尽管取得显著进展，研究团队也指出了当前系统的局限性。例如，20亿参数的骨干网络规模是否最优尚未明确，固定划分基础流和物理流的方式可能不适用于所有场景，生成顺序的固定性也缺乏自适应调整。这些发现为后续研究指明了方向，包括探索更大规模模型、更灵活的分流策略，以及更广泛的数据集应用。

该研究的代码已开源至GitHub的AIGeeksGroup/MotionVLA仓库，为研究人员提供了完整的实现框架。通过分离快慢信号的编码空间，这项工作为人体动作生成领域提供了新的设计哲学：有效的运动表示应尊重信号本身的物理特性，而非简单追求压缩效率。这种思路的转变，可能推动具身智能和人机交互技术迈向新的发展阶段。

摩尔线程携手中科院：DeferredGS全栈国产化适配开启自主可控新篇章

2026-06-20

EvoPhys-World登顶世界生成榜首国产GPU与软件栈全栈赋能显实力

2026-06-20

基于宇树G1改装的人形机器人 Pemba 登顶火山，未来将挑战珠峰

配备摄像头、传感器、卫星通信和机载 AI 后，人形机器人可以自主巡查大范围区域，并持续收集环境数据。按照设想，Pemba 将在珠峰大本营和海拔近8000 米的四号营地之间活动，收集电池性能、行走能力、关节受…

2026-06-20

杨立昆评马斯克：xAI陷困境难成气候，SpaceX获赞，特斯拉FSD有实用性

2026-06-19

阿里HappyOyster 1.0：输入梦境画面，开启沉浸式交互数字世界新体验

2026-06-19

网易有道全面向AI转型全场景Agent矩阵亮相图博会

2026-06-19

亚马逊自研AI芯片或对外售，英伟达市场格局待变

据媒体报道，亚马逊正洽谈将其定制的Trainium加速器出售给其他公司用于数据中心，这意味着其芯片将直接与主导当前AI市场的英伟达（NASDAQ: NVDA）GPU展开正面竞争。大型AI客户已做出采购承诺：O…

2026-06-19

Claude Code再升级：终端内一键生成交互网页，开启开发者协作新范式

想想一下，当你在终端里跟Claude Code对话写代码，它能把这段工作直接变成一个可交互的HTML网页，生成私密链接，浏览器里打开就能看。 Claude会把你的对话上下文、代码库、连接的工具数据全部吃进去…

2026-06-19

小米Miloco 2.0开源，智能家居迎Agent时代，超级AI管家走进现实

Xiaomi Miloco2.0，就是这样一个核心系统，可以化作Agent的“眼睛、耳朵、记忆”，各类米家设备作为全模态感知入口，Miloco 2.0通过视觉、声音、环境感知实现全屋理解，将用户需求传达给…

2026-06-19