近日,阿里巴巴正式向公众推出了其最新的开源项目——电影级视频生成模型通义万相Wan2.2。这款模型能够在单次运行中生成长达5秒的高清视频,为视频创作领域带来了新的可能性。
此次开源的项目中,包含了三款各具特色的模型:文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)以及统一视频生成(Wan2.2-TI2V-5B)。其中,文生视频和图生视频模型尤为引人注目,它们首次在视频生成领域采用了混合专家模型(MoE)架构。
MoE架构通过动态选择部分专家(子模型)进行推理,显著提高了模型的计算效率和性能。在通义万相Wan2.2中,这一架构被巧妙地分为高噪声专家模型和低噪专家模型,分别负责视频的整体布局和细节完善。这一设计不仅使得模型在同等参数规模下能够节省约50%的计算资源,还解决了传统模型在处理长时序视频时面临的效率问题。
通义万相Wan2.2的总参数量达到了27B,激活参数量更是高达14B,激活占比超过50%。如此高的激活占比,得益于阿里巴巴团队对模型架构的深入设计和优化。他们通过对视频生成过程中数据流向和处理逻辑的精准把握,构建了一个能够合理分配不同专家模型职责的架构。
在商业策略上,阿里巴巴选择开源这三款模型,无疑是一次深思熟虑的举措。当前,AI视频生成领域正处于闭源竞赛与开源探索并行的阶段。开源模式通过生态共建,有助于扩大技术影响力,加速技术的场景落地。对于开发者而言,Wan2.2的开源提供了一个可直接上手的技术样本,降低了视频生成技术的研究门槛。
从应用场景来看,通义万相Wan2.2的5秒高清视频生成能力,目前更适合作为创意工具而非生产工具。在影视前期策划和广告行业中,它能够快速生成可视化创意方案和产品展示短视频初稿,显著提升前期沟通效率。然而,其局限性也同样明显,单次生成5秒视频的时长限制了其在复杂叙事中的应用。
尽管如此,通义万相Wan2.2的开源仍然是中国企业在AI视频生成领域的一次重要发声。在全球范围内,已有模型实现了更长时长的视频生成,并在画面真实感上具备优势。而通义万相Wan2.2的特色在于其MoE架构带来的资源效率提升,这一差异化路径能否在激烈竞争中占据一席之地,还需看其在实际场景中的表现。
值得注意的是,通义万相团队还引入了“电影级美学控制系统”,通过参数化调节光影、色彩等设计,降低了专业美学表达的门槛。然而,这种控制的精准度仍依赖于提示词的专业性,普通用户可能难以充分发挥其功能。
随着技术的不断进步,视频生成技术可能会逐步渗透到更多领域。然而,这一过程需要时间,并且必然伴随着技术瓶颈的突破和商业模式的验证。对于企业而言,如何在技术研发投入与商业回报之间找到平衡,将是一个长期的挑战。
通义万相Wan2.2的出现,为AI视频生成技术提供了一种新的选择。它不仅展示了阿里巴巴在AI领域的深厚实力,也为整个行业的发展带来了新的动力。