
发布 | ITBEAR
2025年4月15日下午,北京中关村国际创新中心的一场发布会,让快手在AI领域彻底“炸场”。
快手旗下可灵AI(KlingAI)正式推出可灵2.0视频生成模型及可图2.0图像生成模型,用“动态质量超越Sora、图生视频碾压谷歌Veo2”的实测数据,宣告中国AI视频生成技术站上全球第一梯队。
这场发布会不仅是技术的跃迁,更是一场“逆袭叙事”的开端。这一刻,快手终于甩掉了“被抖音压制”的标签,用技术硬实力证明了自己。
数据显示,可灵AI自2024年6月上线以来,全球用户突破2200万,月活增长25倍,累计生成1.68亿个视频和3.44亿张图片。
这背后,是快手长达20次迭代的技术攻坚,更是中国AI公司首次在“文生视频”这一高难度赛道上实现对OpenAI、谷歌的全面反超。
正如快手高级副总裁盖坤所言:“可灵AI的愿景,是让每个人都能用AI讲出好故事。”而这场故事的序章,或许正在改写全球AI产业的权力格局。
01
从“慢动作”到“电影级”,可灵2.0的三大杀招
如果说AI视频生成的1.0时代是“能用”,那么可灵2.0的目标是“好用且惊艳”。此前的行业通病——语义理解偏差、动态质量粗糙、画面美学不足——在2.0版本中被逐一击破。
动态质量
早期的AI视频生成常被诟病为“PPT式动画”,运动速度失真、动作逻辑混乱。
可灵2.0通过全新DiT架构和强化学习技术,大幅优化了复杂运动场景的生成能力。例如,用户输入“一匹马在草原上飞驰”时,1.6版本生成的画面可能呈现不自然的慢动作,而2.0版本的马匹肌肉线条、鬃毛飘动、蹄部扬尘均符合物理规律,甚至能模拟真实镜头的追焦效果。
快手副总裁张迪在发布会中对比演示了两代模型的差异:“可灵2.0能准确还原‘手锤桌子起身’的力度和表情变化,而1.6版本只能做到形似。”
语义响应
AI生成的核心难点在于精准捕捉用户意图。可灵2.0通过升级文本表征链路和自适应去噪策略,实现了对复杂指令的深度解析。
例如,输入“伺服电机驱动的机械女神站在壁画前,背景需有拉斐尔《雅典学院》的古典平衡感”,可图2.0生成的图像不仅还原了所有元素,还通过光影层次和色彩对比强化了“机械与古典”的冲突美学。这种能力在广告、影视等专业领域极具价值。

多模态交互
可灵2.0最颠覆性的创新,是提出“多模态视觉语言”(MVL)。传统的文本提示词在描述复杂动作、表情时显得苍白,而MVL允许用户混合图像、视频片段、声音甚至运动轨迹作为输入。
这种“语义骨架+多模态描述子”的设计,让AI从“执行工具”升级为“创意伙伴”。正如盖坤所说:“可灵希望让每个人都能用 AI 讲出好故事,实现更加精准的复杂创意表达。”
02
从“用户增长”到“生态闭环”,快手的AI野望
技术突破只是起点,商业化落地才是考验。
可灵AI的2200万全球用户中,既有个人创作者,也有企业客户,而快手的策略是“C端引流,B端变现”,构建完整的AI内容生态。
C端:降低创作门槛,激活UGC浪潮
可灵2.0的免费开放策略直接击中了内容创作者的痛点。这种“零门槛出大片”的能力,让可灵迅速成为PUGC(专业用户生成内容)的核心工具。数据显示,目前可灵平台上85%的视频生成任务为图生视频任务,而可图2.0支持的60多种风格化转绘(如油画、水墨、像素风),进一步释放了创意多样性。

B端:API接入与行业解决方案
快手的野心不止于个人用户。目前,可灵AI已为小米、阿里云、蓝色光标等企业提供API服务,累计生成1200万张图像和4000万个视频素材。
以二次元社区“狸谱”为例,其“动态LIVE”功能借助可灵1.6的流畅动作生成,在春节期间吸引60万用户参与,而2.0版本的多模态编辑能力预计将推动动画产能提升3倍。
此外,快手推出“NextGen新影像创投计划”,以千万资金扶持AI创作者,目标是将可灵打造成“AI时代的Adobe”。
1亿元营收只是开始
从2024年6月上线至2025年2月,可灵AI已实现超1亿元营收,主要来自B端订阅和广告分成。分析师盘和林指出:“可灵的商业化还有开发空间,1亿元营收对可灵来说,应该仅仅是开始。” 快手CEO程一笑更在财报会上放话:“可灵AI在2025年将实现收入的跨越式增长。”
总结
AI视频的“中国时刻”,快手的“长期主义”
可灵2.0的发布,标志着中国AI企业首次在视频生成领域站上全球第一梯队。但快手的成功绝非偶然。自2024年6月推出可灵AI以来,其20多次快速迭代、25倍月活增长、1.68亿视频生成量,体现了一家公司的技术韧性与执行力。

正如盖坤所言:“我们的初心是让每个人用AI讲出好故事。” 若快手能持续投入、完善生态,这场“AI视频革命”或将真正改写内容产业的游戏规则。
而对于抖音乃至全球巨头而言,可灵2.0的崛起是一记警钟:在AI时代,技术护城河的构建速度,可能比想象中更快。