ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里通义万相2.1新突破:首尾帧生成高清视频模型开源

时间:2025-04-18 20:55:00来源:ITBEAR编辑:快讯团队

近日,一款名为Wan2.1-FLF2V-14B的首尾帧生视频模型正式对外宣布开源,这一创新技术由通义万相推出,允许用户仅通过上传两张照片——一张作为起始帧,一张作为结束帧,就能迅速生成一段5秒钟长、分辨率为720p的高清视频。

这款模型不仅具备基础的视频生成功能,更引入了“灵感模式”,通过AI智能扩写技术,用户可以进一步描述视频创意,提升画面的丰富度和表现力,从而满足更加个性化和精细化的视频创作需求。

用户可以通过通义万相的官方网站免费体验这一新发布的模型,同时,该模型也已在Github、Hugging Face及魔搭社区(Modelscope)等平台上线,供开发者进行二次开发,进一步挖掘创意潜力。

Wan2.1-FLF2V-14B模型凭借其14B的参数量,成为了全球首个达到百亿参数级别的开源首尾帧生视频模型,标志着这一领域的技术进步达到了新的高度。

在通义万相官方发布的演示案例中,该模型展示了其强大的工作能力。它能够真实地还原物理规律,如光源出现时地面上的人影变化,以及在复杂动态场景中,对细节进行高精度处理,如跑步女孩的衣服褶皱和头发颜色变化等,使得生成的视频更加逼真。

该模型还能根据不同运镜方式,对视频场景进行丰富和完善,满足用户对视频情感表达的诉求。例如,在卡通风格视频中,一个打着红色雨伞的蓝色卡通人物站在雨中,眼神忧郁,充分展现了模型的情感表达能力。

在技术层面,Wan2.1系列模型采用了DiT(Diffusion in Transformer)架构,结合了扩散模型的生成能力和Transformer模型的特征提取及长序列处理能力,并通过VAE视频压缩技术,在保证清晰度的同时,提高了工作效率。Full Attention机制的应用,则确保了生成视频在时间和空间上的一致性。

针对首尾帧生视频模型的特点,通义万相在基础架构上新增了条件控制分支,以用户上传的首、尾帧照片作为控制条件,实现了视频从首帧到尾帧的丝滑过渡。同时,模型还提取了首帧和尾帧的CLIP语义特征,并将其反馈到DiT的生成过程中,以确保生成首尾帧衔接画面的稳定性。

在训练和推理阶段,通义万相首尾帧生视频模型采用了线性噪声轨迹的流匹配方法,优化了视频生成过程,使得高精度的视频切片训练成为可能。同时,通过模型切分策略和序列并行策略,在有限内存下支持高清视频推理,在保证推理效果无损的同时,大幅缩短了推理时间。

通过三个阶段的训练,从480p分辨率下的混合任务训练,到针对首尾帧生成能力的专项优化,最后在720p分辨率下完成高精度训练,通义万相首尾帧生视频模型展现了其在视频生成领域的强大技术优势和创新性。

相较于传统的文生视频和单图生视频技术,首尾帧生视频模型为用户提供了更多的创作自由度。用户可以自主决定视频的开头和结尾画面,并通过提示词指令对生成内容进行精细描述,从而创作出更加符合个人或项目需求的视频作品。

更多热门内容
泡泡玛特股价创新高,神秘股东套现7.91亿港元离场?
据报道,泡泡玛特股价新高之际,有投资者通过大宗交易高位套现约7.91亿港元。据彭博社看到的交易条款,一位未披露身份的卖家以每股192.95港元的价格出售了约410万股泡泡玛特股票。这个价格,较泡泡玛特周二收盘…

2025-04-30