百度商业研发团队近期宣布了一项重大技术突破,成功推出了名为“MuseSteamer”的自研视频生成模型,以及与之配套的创作平台“绘想”。这一创新成果标志着全球首个中文音视频一体化生成视频模型的诞生,彻底颠覆了传统AIGC视频制作的固有流程。
MuseSteamer模型通过高度协同的创作方式,实现了画面、音效与人声台词的同步生成,彻底打破了以往“先画面后配音”的制作界限。这一技术革新不仅提升了视频制作的效率,更为创作者提供了前所未有的创作自由度。
在技术上,MuseSteamer取得了显著的突破。它在权威榜单VBench I2V中以89.38%的总分荣登榜首,充分展示了其卓越的性能。更令人惊叹的是,该模型支持从一张图片中生成长达10秒、分辨率为1080p的电影级画质视频。视频中的人物微表情与运镜效果均达到了专业影视制作的水准。
MuseSteamer的成功得益于百度团队的深入研究和技术积累。他们利用亿级中文多模态数据进行清洗,并开发了精细化视频结构化描述语言。多目标强化学习等先进技术的优化也为MuseSteamer的核心能力提供了有力支撑。
为了满足不同创作者的需求,MuseSteamer模型家族推出了Turbo、Lite、Pro及全系列有声版等多个版本。目前,Turbo版已在绘想平台上限时免费开放公测,吸引了大量创作者的关注和参与。其余版本也将在8月陆续向公众开放。
与此同时,绘想平台还启动了“跨次元捏合”AI视频创作大赛。参赛者只需通过单图输入,即可生成动态捏捏乐视频参与比赛。这一活动不仅激发了创作者的热情,也为MuseSteamer的应用场景拓展提供了新的可能。