阿里巴巴旗下通义万相团队近日推出全新升级的万相2.6系列模型,该模型成为国内首个具备角色扮演功能的视频生成工具,同时整合了音画同步、多镜头切换及声音驱动等创新技术。这一突破标志着视频生成领域在专业化叙事与交互体验方面迈出重要一步。
技术层面,万相2.6采用多模态联合建模架构,能够深度解析输入视频的时序动态、主体特征及声学信号,确保生成内容在视觉与听觉维度保持高度一致。其分镜控制系统通过语义理解技术,可将原始素材自动编排为包含多视角切换的专业叙事段落,显著提升视频的叙事层次感。
本次升级重点强化了三大核心能力:画质精细度、音效逼真度及指令响应精准度。单次生成视频时长扩展至15秒,新增的角色扮演功能支持用户上传个人视频片段并输入创作提示词,系统即可自动完成镜头设计、角色演绎与配音合成,最终生成具有电影级运镜效果的短片。该功能特别针对广告创意、短视频制作等商业场景开发,可大幅降低专业内容生产门槛。
目前,万相模型体系已涵盖文生图、图像编辑、文生视频等超过十种视觉创作功能,形成完整的AI创作工具链。个人用户可通过官方平台直接体验最新版本,企业客户则可通过阿里云百炼平台接入模型API,实现规模化内容生产。此次升级进一步巩固了该团队在多模态生成领域的技术领先地位。


