京东近日在长视频生成领域取得重要进展,正式发布名为JoyAI-Echo的开源音视频生成框架。该框架针对行业普遍存在的角色一致性、声音稳定性及生成效率三大痛点,通过技术创新实现了显著突破。目前项目代码与模型权重已完全公开,全球开发者均可通过指定平台获取资源进行二次开发。
技术核心方面,框架内置的跨模态记忆库成为关键突破点。这项机制能够实时捕捉并存储角色外观特征与语音音色信息,在多镜头切换过程中持续调用这些数据。经实测验证,在长达五分钟的长视频中,人物形象与声音特征始终保持高度统一,有效解决了传统模型中"角色中途变形"的常见问题。
在生成效率优化上,研究团队提出记忆驱动的后训练流程,整合了监督微调(SFT)、跨模态强化学习(RLHF)及分布匹配蒸馏(DMD)三项技术。其中DMD技术单独贡献了约7.5倍的推理加速效果,配合其他优化手段,使整体生成速度获得质的提升。这种技术组合既保证了输出质量,又显著缩短了创作周期。
交互体验层面,框架引入智能导演助理Director Agent模块。用户仅需通过自然语言描述创作需求,系统即可自动完成剧本拆解、角色分配、场景规划及镜头设计等复杂工作。更值得关注的是局部修改功能,当用户对特定镜头不满意时,可直接通过对话指令要求重制,系统会精准定位问题片段进行局部优化,避免整体重生的冗余操作。
针对专业制作需求,框架配备实时超分辨率模块,支持将736×1280分辨率视频提升至1152×1920或1472×2560两种高清规格。该模块采用单步超分技术,在保持流媒体传输延迟可控的前提下,仍能输出稳定的高清音视频内容,满足影视级制作标准。
