当传统AI视频生成还停留在“你写描述、我出画面”的单向模式时,一款名为HappyOyster 1.0的产品正以“可交互的数字世界”重新定义内容创作边界。这款由阿里ATH团队推出的开放式世界模型,让用户从“旁观者”变为“世界主宰”——在生成的场景中实时操控角色、改变剧情走向,甚至创造属于自己的平行宇宙。
在传统文生视频领域,用户输入文本后,模型会一次性生成固定视频片段。这类产品虽能呈现高精度画面,却存在致命缺陷:生成的片段无法修改,角色易“穿帮”,时间一长便出现逻辑混乱。例如,角色前一秒持剑,下一秒却空手;转身时面部特征突然改变。这些问题导致市面上的AI视频普遍以短片段为主,难以支撑长叙事。
HappyOyster 1.0的突破在于,它构建的并非一段影像,而是一个“活”的数字空间。用户输入一张图片后,模型会生成可交互的开放世界,支持两种核心模式:在“Adventure模式”中,用户化身角色,通过按键实现奔跑、跳跃、攻击等动作,模型根据操作实时推演画面;在“Directing模式”中,用户化身导演,通过文本指令控制角色行为,甚至能回溯剧情节点、设计多条故事分支。
实测中,当用户输入一张吉卜力风格的草原图后,生成的场景立即“活”了过来。按下“奔跑”键,角色迈开双腿;点击“攻击”,角色挥剑劈砍;触发“跳跃”时,角色腾空而起,落地时的屈膝动作与镜头晃动细节拉满。更令人惊叹的是,同一动作反复尝试会呈现不同角度,且场景中的马车、汽车等元素会自动解锁骑乘、鸣笛等交互玩法,真正实现“画面有什么,就能玩什么”。
在“Directing模式”下,用户可上传图片锁定角色外观,通过文本指令操控剧情。例如,先设定“两人在舞台激烈争吵”,二十秒后输入新指令“他们突然释怀并拥抱”,角色表情与动作随即自然过渡,且面部特征、服装细节始终保持一致。用户还能随时回溯剧情节点,从同一场景衍生出A、B两条不同故事线,构建属于自己的“平行宇宙”。
支撑这一体验的是四大核心技术:闭环世界状态建模将历史信息压缩为“隐状态摘要”,像接力跑一样传递关键数据,确保长时序连贯性;内生一致性技术为角色发放“身份卡”,解决传统模型中角色易变形的痛点;开放因果动作空间将动作指令与自然语言统一,用户输入“骑上马”即可触发完整上马动作;长时序音视频协同技术让音效与画面同步生成,实现“脚步声随步伐变化、雨声随天气调整”的物理合规效果。
目前,行业尚缺乏针对世界模型的系统性评测标准。为此,HappyOyster团队正与南京大学合作共建评测基准,试图从“世界逻辑”维度定义赛道规则。这一举动表明,该产品不仅追求技术突破,更试图成为行业规则的制定者。
从游戏开发到影视创作,从文旅虚拟漫游到博物馆沉浸式体验,HappyOyster 1.0的应用场景远超传统AI视频。游戏开发者无需搭建庞大美术资产库,输入概念图即可生成可交互场景;影视创作者能让观众自主选择剧情走向,催生互动内容新业态;文旅机构可打造虚拟漫游项目,让用户“走进”历史场景。目前,该产品已开放注册,API接口计划近期上线,未来或将在数字人直播、虚拟陪伴等领域引发变革。

