阿里近日正式推出新一代万相2.6系列模型,该模型在专业影视制作与图像创作领域实现多项技术突破,成为国内首个具备角色扮演能力的视频生成工具。其核心功能涵盖音画同步、多镜头智能生成及声音驱动技术,凭借全面的功能组合跻身全球顶尖视频生成模型行列。目前该模型已在阿里云百炼平台及万相官方网站同步开放使用。
在视频生成领域,万相2.6通过深度解析输入素材的角色特征与音色参数,可实现跨场景角色扮演功能。无论是单人演绎、多人互动还是人与虚拟物体的协同表演,均能根据文本指令生成自然流畅的视频内容。其多镜头叙事系统能将简单提示词转化为专业分镜脚本,确保不同镜头间的主体形象、场景元素及光影效果保持高度连贯性,最长支持15秒连贯叙事视频生成。
音频处理方面,该模型突破传统技术瓶颈,在多人对话场景中实现稳定的人声生成与情感表达。通过优化声学模型,不仅提升了语音的自然度与音乐质感,更支持根据音频内容驱动视频生成,配合多镜头切换完成复杂叙事。在长视频生成测试中,15秒输出时长较前代产品提升50%,画面时空信息密度显著增强。
文生图功能迎来美学升级,模型对艺术风格关键词的解析能力达到新高度。通过深度学习数万种艺术流派特征,既能精准还原单一风格精髓,又支持多种风格的无缝融合。在细节处理上,肌理质感、色彩过渡与笔触表现均获得突破性提升,配合智能构图系统,可自动生成具有电影级视觉张力的图像作品。针对商业设计需求,新增的中英文长文本解析模块能直接生成海报、信息图表等视觉内容,实现文字信息与视觉元素的有机整合。
图像生成系统新增图文混排与多图融合功能,支持多张参考图与文字指令的协同创作。其智能推理引擎可分析素材间的逻辑关系,自动构建层次分明的视觉叙事结构。在商业应用层面,通过强化角色一致性算法,确保系列作品中的核心元素保持统一风格,配合美学要素迁移技术,可快速提取参考图的创意特征生成衍生作品。专业用户还可通过镜头视角、景深参数及光影方向的精准调控,实现画面空间的立体化塑造。
技术团队透露,万相2.6采用多模态预训练架构,在3000万组专业影视数据基础上完成训练。其核心算法包含动态注意力机制与跨模态对齐模块,使模型能同时处理文本、图像、音频三重输入信号。在最新基准测试中,该模型在角色一致性、叙事连贯性及美学评分等维度均领先行业平均水平,特别是在东方美学风格的呈现上展现出独特优势。目前平台已开放企业级API接口,支持影视制作、广告营销、数字内容创作等领域的深度应用。

