阿里万相2.1开源引领视频AI新纪元，谷歌微美全息共赴全模态开源浪潮！-人工智能-ITBear科技资讯

近日，阿里巴巴宣布其先进的生成基座模型——万相2.1（Wan）正式向公众开放源代码。在多个评测数据集中，该模型力压群雄，包括Sora和Luma等知名模型，荣登榜首。

此次开源的万相2.1模型，拥有两个不同规模的参数版本。其中，140亿参数的版本专为追求极致生成效果的专业用户设计，而13亿参数的版本则以其高效快速的生成能力和对各类消费级GPU的广泛兼容性脱颖而出。这两个版本的全部推理代码和权重均已实现开源。

在视频生成领域，万相2.1凭借其自研的高效VAE和DiT架构，显著增强了时空上下文建模能力。该模型不仅支持无限长1080P视频的高效编解码，还首次实现了中文文字视频的自动生成。它还涵盖了文生视频、图生视频、视频编辑、文生图和视频生音频等多重功能。

据了解，万相2.1不仅支持中英文视频生成，还内置了一键生成艺术字的功能，并提供了多种视频特效选项，如过渡效果、粒子效果和模拟效果等，旨在增强视频的视觉表现力。

业内分析人士指出，万相2.1的开源标志着阿里云在AI领域迈出了重要一步，实现了全模态、全尺寸的开源。这一举措将大大降低开发者获取和使用该模型底层代码的成本，进而推动更多视频生成应用的创新与发展。

近年来，开源趋势已成为全球大模型领域的一股不可忽视的力量。在国内，随着字节跳动的豆包和百度的文心一言等开源模型的相继推出，新一轮的开源热潮正在兴起。而在国际市场上，万相2.1的完全开源无疑给OpenAI和谷歌等竞争对手带来了更大的商业化挑战。例如，谷歌近期披露的Veo 2模型定价为每生成1秒视频需付费0.5美元，这意味着生成一个小时的视频将耗资高达1800美元。

另一家在AI视频生成领域有显著布局的微美全息公司，也在积极探索多模态AIGC（生成式AI）技术的研发。该公司通过结合大规模预训练与多模态算法优化，致力于提升生成内容的连贯性和物理合理性。目前，微美全息已逐步实现文本生成视频、图像生成视频等能力，并支持剧情创作、短视频生成等多种应用场景。未来，该公司有望通过API或行业解决方案，进一步加速AI视频生成技术的迭代与发展。