近日,阿里巴巴宣布其先进的生成基座模型——万相2.1(Wan)正式向公众开放源代码。在多个评测数据集中,该模型力压群雄,包括Sora和Luma等知名模型,荣登榜首。
此次开源的万相2.1模型,拥有两个不同规模的参数版本。其中,140亿参数的版本专为追求极致生成效果的专业用户设计,而13亿参数的版本则以其高效快速的生成能力和对各类消费级GPU的广泛兼容性脱颖而出。这两个版本的全部推理代码和权重均已实现开源。
在视频生成领域,万相2.1凭借其自研的高效VAE和DiT架构,显著增强了时空上下文建模能力。该模型不仅支持无限长1080P视频的高效编解码,还首次实现了中文文字视频的自动生成。它还涵盖了文生视频、图生视频、视频编辑、文生图和视频生音频等多重功能。
据了解,万相2.1不仅支持中英文视频生成,还内置了一键生成艺术字的功能,并提供了多种视频特效选项,如过渡效果、粒子效果和模拟效果等,旨在增强视频的视觉表现力。
业内分析人士指出,万相2.1的开源标志着阿里云在AI领域迈出了重要一步,实现了全模态、全尺寸的开源。这一举措将大大降低开发者获取和使用该模型底层代码的成本,进而推动更多视频生成应用的创新与发展。
近年来,开源趋势已成为全球大模型领域的一股不可忽视的力量。在国内,随着字节跳动的豆包和百度的文心一言等开源模型的相继推出,新一轮的开源热潮正在兴起。而在国际市场上,万相2.1的完全开源无疑给OpenAI和谷歌等竞争对手带来了更大的商业化挑战。例如,谷歌近期披露的Veo 2模型定价为每生成1秒视频需付费0.5美元,这意味着生成一个小时的视频将耗资高达1800美元。
另一家在AI视频生成领域有显著布局的微美全息公司,也在积极探索多模态AIGC(生成式AI)技术的研发。该公司通过结合大规模预训练与多模态算法优化,致力于提升生成内容的连贯性和物理合理性。目前,微美全息已逐步实现文本生成视频、图像生成视频等能力,并支持剧情创作、短视频生成等多种应用场景。未来,该公司有望通过API或行业解决方案,进一步加速AI视频生成技术的迭代与发展。