百度自研视频生成模型MuseSteamer：中文音视频一体化，图生10秒电影级视频-业界动态-ITBear科技资讯

百度商业研发团队近期宣布了两项创新成果：自研视频生成模型“MuseSteamer”及配套的创作平台“绘想”。这一突破性技术标志着全球首个中文音视频一体化生成视频模型的诞生，它颠覆了传统AIGC视频制作中画面与音效、人声台词分步进行的旧模式，实现了两者的协同创作。

“MuseSteamer”在技术上取得了显著成就，于权威评测VBench I2V中荣获全球榜首，总分高达89.38%。该模型不仅能够根据一张图片生成长达10秒、分辨率为1080p的电影级画质视频，而且在人物微表情和运镜效果方面达到了专业影视制作的标准。这些卓越表现得益于其背后的强大技术支撑，包括亿级中文多模态数据的精细处理、创新的视频结构化描述语言，以及多目标强化学习算法的不断优化。

“MuseSteamer”模型家族涵盖了Turbo、Lite、Pro及全系列有声版，旨在满足不同创作者的需求，从普通用户到专业影视机构均可找到适合自己的版本。目前，Turbo版已在“绘想”平台上开放限时免费公测，吸引了大批创作者体验。其余版本也计划在8月陆续与用户见面。为进一步激发创作热情，“绘想”平台还启动了“跨次元捏合”AI视频创作大赛，用户只需上传一张图片，即可生成富有创意的动态视频作品参与竞赛。