ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里万相2.1开源引领视频AI新纪元,谷歌微美全息共赴全模态开源浪潮!

时间:2025-03-04 14:09:48来源:ITBEAR编辑:快讯团队

近日,阿里巴巴宣布其先进的生成基座模型——万相2.1(Wan)正式向公众开放源代码。在多个评测数据集中,该模型力压群雄,包括Sora和Luma等知名模型,荣登榜首。

此次开源的万相2.1模型,拥有两个不同规模的参数版本。其中,140亿参数的版本专为追求极致生成效果的专业用户设计,而13亿参数的版本则以其高效快速的生成能力和对各类消费级GPU的广泛兼容性脱颖而出。这两个版本的全部推理代码和权重均已实现开源。

在视频生成领域,万相2.1凭借其自研的高效VAE和DiT架构,显著增强了时空上下文建模能力。该模型不仅支持无限长1080P视频的高效编解码,还首次实现了中文文字视频的自动生成。它还涵盖了文生视频、图生视频、视频编辑、文生图和视频生音频等多重功能。

据了解,万相2.1不仅支持中英文视频生成,还内置了一键生成艺术字的功能,并提供了多种视频特效选项,如过渡效果、粒子效果和模拟效果等,旨在增强视频的视觉表现力。

业内分析人士指出,万相2.1的开源标志着阿里云在AI领域迈出了重要一步,实现了全模态、全尺寸的开源。这一举措将大大降低开发者获取和使用该模型底层代码的成本,进而推动更多视频生成应用的创新与发展。

近年来,开源趋势已成为全球大模型领域的一股不可忽视的力量。在国内,随着字节跳动的豆包和百度的文心一言等开源模型的相继推出,新一轮的开源热潮正在兴起。而在国际市场上,万相2.1的完全开源无疑给OpenAI和谷歌等竞争对手带来了更大的商业化挑战。例如,谷歌近期披露的Veo 2模型定价为每生成1秒视频需付费0.5美元,这意味着生成一个小时的视频将耗资高达1800美元。

另一家在AI视频生成领域有显著布局的微美全息公司,也在积极探索多模态AIGC(生成式AI)技术的研发。该公司通过结合大规模预训练与多模态算法优化,致力于提升生成内容的连贯性和物理合理性。目前,微美全息已逐步实现文本生成视频、图像生成视频等能力,并支持剧情创作、短视频生成等多种应用场景。未来,该公司有望通过API或行业解决方案,进一步加速AI视频生成技术的迭代与发展。

更多热门内容
雷军呼吁:小米拒绝内卷,坚持高端创新,领跑未来
三言科技消息 雷军今日发文称,小米将继续坚定不移走科技创新的道路,走高端化发展的道路,将先进的人工智能技术应用到各个终端产品当中去。 此外,对于综合整治“内卷式”竞争,雷军表示完全赞同:“反内卷”的本质就坚决…

2025-03-05

周鸿祎预言:2025年AI应用遍地开花,超级应用非唯一焦点
三言科技消息 360董事长周鸿祎日前表示:“2025年是AI的应用之年,不会只有一个超级应用。” 周鸿祎认为,竞争焦点应该转变成借助AI能力做应用。因为DeepSeek让AI的能力变得可用了,同时通过开源和低…

2025-03-05

网络乱象整治:一批侵权网站及违规App被依法处理
据网信陕西,一批网站、账号涉企侵权破坏网络营商环境被依法关闭。根据相关法律法规,依法予以关闭。经查,“AiDiet”“SoulAI”等App未按要求开展安全评估,违规接入调用境外人工智能产品,存在较大安全风险…

2025-03-05