近日,可灵AI宣布了其基座模型的重大升级,正式推出了可灵2.0视频生成模型与可图2.0图像生成模型,这一消息引起了业界的广泛关注。
据可灵AI官方透露,此次升级后的2.0版本,在动态质量、语义响应以及画面美学等多个方面进行了显著提升。可灵AI自去年6月上线以来,用户规模迅速扩张,目前全球用户已突破2200万大关,累计生成了1.68亿个视频和3.44亿张图片素材。月活用户数量在短短10个月内增长了25倍,这一数据无疑彰显了其强大的市场吸引力和用户基础。
在发布会上,快手高级副总裁盖坤分享了他对可灵AI的期待与愿景。他提到,早在去年三四月份,当他首次看到可灵AI的DiT模型产出结果时,便萌生了一个念头——用AI来拍摄他心目中的《三体》。这一愿景不仅展现了盖坤对可灵AI潜力的认可,也预示着AI在影视创作领域或将迎来革命性的突破。
然而,尽管AI在视频生成领域取得了显著进展,但仍面临诸多挑战。盖坤指出,当前行业模型在语义分析能力和动态质量方面仍存在不足。为了解决这些问题,可灵AI在2.0模型中提出了全新的交互理念——Multi-modal Visual Language(MVL)。这一理念允许用户结合图像参考、视频片段等多模态信息,将复杂的创意直接传达给AI,从而实现更精准、更灵活的内容生成。
基于MVL理念,可灵AI推出了多模态编辑功能,该功能不仅限于图片和视频,还可以引入声音、运动轨迹等其他模态的信息。可灵AI还发布了可灵2.0大师版,该版本在语义响应、动态质量和画面美学等方面进行了全面升级,并新增了多模态视频编辑功能。用户可以在已有视频的基础上,通过输入图片或文字,对视频内容进行元素的增加、删减、替换等操作,实现二次编辑和处理。
在图像生成领域,可图2.0同样表现出色。其优势在于复杂语义理解能力、电影级的画面质感以及多条件的可控风格化生成。新升级的可图2.0版本在指令遵循能力、电影美学表现力以及艺术风格多样性方面均有所提升。同时,可图2.0还支持60多种风格化的效果转绘,并上线了图像可控编辑功能,如局部重绘和扩图等,进一步满足了用户的多样化需求。
除了面向C端订阅用户外,可灵AI还为B端商家提供了API接入等服务。目前,已有超过1.5万名开发者将可灵的API应用于不同行业场景中,累计生成图像数量约1200万个,视频素材超过4000万个。这一数据不仅证明了可灵AI在B端市场的强大影响力,也为其未来的商业化发展奠定了坚实基础。
为了进一步激发AI创作者的热情并推动AIGC领域的发展,可灵AI还发布了“可灵AI NextGen 新影像创投计划”。该计划将投入千万资金,通过全球宣发、IP打造和保障等方式,全资出品、联合出品或提供技术支持给AI创作者们。这一举措无疑将为AIGC领域注入新的活力并推动其持续发展。