阿里又放大招！一句话，造一个能走进去的世界-业界动态-ITBear科技资讯

新智元报道

今天，阿里重磅上线HappyOyster 1.0世界模型，一句话直接生成可实时探索、物理交互的开放世界！

「快乐生蚝」，真的来了！

今天，阿里正式放出了HappyOyster 1.0——这是一款可实时构建和交互的开放式世界模型产品。

一句话，即可生成一个完整、可演绎、可探索、可互动的数字世界。

2个月前，阿里曾把「快乐生蚝」放进了公众视野，如今这只生蚝终于长成了1.0。

一句话，一个世界，这次是真的实现了。

世界模型，AI下一个战场

过去两年，文生视频已经相当成熟。

输入一句话，等上几十秒，就能拿到一段成片，它把「文本变成画面」这件事，做得很好。

只不过，成片有它天然的边界：画面生成完，这段视频就定稿了，你能做的是「看」，而不是「参与」。

而世界模型想做的，是另一件事：让你不只是看一段视频，而是走进一个能实时互动、随时改变走向的世界。

这无关谁取代谁，文生视频交付的是「一段结果」，世界模型为你创造的是「一段体验」——

你给一张图、一段话，它生成的那一刻，体验才刚开始。

那它具体是怎么做到的？

它把视频，当成一个需要被持续推演的世界状态，学习世界如何随时间演化的规律——

空间怎么连续、物体怎么守恒、动作之后会引发什么反馈。

它要做的，不再只是「把内容生成出来」，而是「把一个世界持续推演下去」。

放眼全世界，硅谷大厂、AI大佬创业公司，纷纷押注「世界模型」这一赛道。

这其中，不仅有谷歌DeepMind的Genie，也有李飞飞团队倾力打造的Marble。

在这场角逐中，阿里HappyOyster强势入局，路线非常明确：主动式、实时——

你说话的同时，世界就在回应你。

如今，阿里把将这句箴言刻印在「世界模型」上，态度很直白：世界，由你来撬开。

快乐生蚝，一手实测

这一次，HappyOyster 1.0核心版本升级，主打两大功能——

世界探索（Adventure）：你就是世界里角色的一部分，一句话、一张图，即可开启任意世界的探索。

实时导演（Directing）：你就成了那个站在世界之上的人，去导演一整个故事。

百闻不如一见，接下来，我们将开启一场全面的硬核实测。

世界探索：你就是世界里的「主角」

一句话或一张图，你就进入一个可漫游、可战斗、可互动的开放世界。

第一人称、第三人称随你切，还支持1分钟以上的实时位移与镜头控制。

「世界探索」新增了一整套丰富的交互动作：前冲 / 加速、下蹲、攻击、跳跃，还支持更复杂的环境交互——乘坐驾驶载具、使用各类武器战斗。

它真正把「看一个世界」变成了「在一个世界里活动」。

下面这个测试中，我们让HappyOyster 1.0生成了两个壮汉在地下拳馆格斗的场景。

这一场格斗里，攻击、跳跃、闪避这些动作，都是实时操控出来的——出拳、反击、再追打，节奏完全跟着指令走。

关键是，一拳打出去，命中之后对手会触发「踉跄倒退」的受击反应。

HappyOyster凭借着对客观世界的理解能力，根据场景实时演化对应的物理交互，让各种复杂动作实时发生。

自动播放

除了战斗场景外，HappyOyster 1.0还可以丝滑处理各类连贯交互动作。

下面这个地牢测试中，人物竟可以主动使用道具——火把。而且，场景的光照状态完成了合理的切换。

自动播放

再比如这台复古老爷车，你可以指挥人物开门、上车，再操控他把车开出去。

从「看一辆车」到「上车把它开走」，中间差的就是能不能实时操控这一步。

自动播放

世界会不会对动作做出实时反馈，雪地是个很好的试金石。

比如下面这个视频中，一名探险者深一脚浅一脚走过厚雪覆盖的山脊，每步留下脚印、踩塌的雪扬起雪粉。

自动播放

更关键的是，不管世界换成什么画风，任何人都能一样地走进去、实时下指令。

如下视频中，是一个黏土风格的微观厨房，可以指挥角色在这个小世界里走动、探索，想去哪、做什么，都是实时演化说了算。

自动播放

实时导演：站在世界之上，一边演一边改

Directing模式能直接让你当导演。流式生成、即说即演，随时注入指令改走向。

它的三大特性，每一条都是一种全新的交互体验：

暂停：任意时刻冻结世界，想好了再继续；

回溯：演到一半折回任意节点重新来过，原版本保留不丢；

剧情分支：从同一个节点分叉出完全不同的走向。

加上首发的多模态参考（用@图片锁定角色外观，3分钟长程一致），试错成本被压到了极低。

通过HappyOyster，便可以第一视角沉浸式体验和数字人的交互，包括捏脸、说话全部都是实时的。

自动播放

亦或是，化身为漫剧导演，亲自执导一场霸总大戏。

剧情的走向、角色的命运，一切全都由你的想象力来主宰。只需在对话框中，输入指令，AI便会按着剧本来演了。

自动播放

创作过程中，可以随时喊停，等创意想好了还能继续。

再来一部「后宫甄猫传」，一个人就能导演一部戏。

自动播放

再来看下面这个demo，二次元老婆换装，想要哪种风格的，一句话直接搞定。

自动播放

核心技术拆解

HappyOyster 1.0 和我们熟悉的文生视频模型，不是同一类东西。

差别不在画面，而在两者学习的目标。

文生视频学的是「文本→视频」的单向映射——给一段描述，产出一段对应的成片，生成完，这件事就结束了。

世界模型则不同，它学的是：当前状态＋你的动作　→　下一个状态的转移规律。

模型必须先理解当前的场景结构、实体属性、物理关系，还要在你随时丢过来指令的情况下，准确预测并渲染世界的下一个状态。

用户不再是被动的观察者，而是可以在「世界」里持续交互——体验的核心是中途互动本身。

那么问题来了，HappyOyster 1.0 是怎么把这件事做成的？

它的技术优势可以概括为四点，层层递进。

第一，世界状态建模——世界能持续跑下去的基础。

HappyOyster 把世界的当前状态压缩成一份紧凑的隐状态摘要（Latent State），每生成一段内容就更新摘要，再把更新后的摘要递归传给下一段。

这就像是一场接力赛跑，上一棒把「关于现在世界的一切」写成一张小纸条递给下一棒。

纸条在手，世界的因果就一直接得上——几分钟跑下来，世界不会乱、因果关系不会断。

更关键的是，正因为状态摘要可序列化、可存档，HappyOyster 1.0 才得以支持暂停、回溯和剧情分支这些进阶功能。

第二，内生一致性——世界「不崩」的保障。

HappyOyster 以持久的参考表征参与全程注意力。

简单理解就是，进入世界时给每个人物、每件关键道具发一张「身份卡」，模型全程带着这张卡生成。

这样，当角色转个身、被挡住，甚至走出画面过几分钟再出现时，长相、衣着、物品都不会变样、不会变形。

一致性不靠运气，而是从架构层面就是内生的。

第三，开放因果动作空间——世界「能玩」的核心。

世界生成稳了，接下来的关键是怎么和它交互。

HappyOyster 的做法是让动作指令和自然语言共享同一套语义接口，不需要预定义动作集。

比如，用户按下「攻击」键，HappyOyster不只是播一个「挥剑」的动画，它能自主推演出整条因果链——

出手→命中→NPC 受击倒地→地面扬尘→旁边的酒杯被震落。

这些因果不是开发者一个一个写好的脚本，而是模型通过大规模因果训练自己学会的。

正因如此，它能自然迁移到从未见过的场景，并根据用户指令推理出新的因果关系。

这是世界模型区别于靠脚本与逻辑拼接的「游戏引擎」的最本质之处。

第四，长时序音视频协同——世界「活着」的质感。

最后一层是感官的完整性。

HappyOyster 的音画是在同一世界状态下联合解码生成的——世界状态展开的同时，声音和画面一起长出来。

脚踩碎石有碎石声，引擎加速有轰鸣，风穿过峡谷有呼啸声——声音不是后期配的，是世界本身的一部分。

这四个点合在一起，HappyOyster 就成为了一个可持续推演的世界模拟器——跑得久、不会崩、可控制、有声音。

从「技术玩具」到「生产力」

谁会最先用起来

HappyOyster 1.0的想象空间，远不止「玩」。

把它放进各行各业，会看到一条共同的主线：每个场景的价值都不在画面本身，而在「实时互动」。

用户能在生成过程中随时介入、即时改变世界的走向。

对不同落地场景来说，这正是世界模型这个新品类最有想象力的地方。

交互式游戏是最直接的落地场景。

传统的开放世界原型验证需要几个月建资产库、搭物理引擎、调NPC行为树。

现在一句话，就能生成带实时物理反馈的开放世界原型。

从FPS战区到国风武侠对决，策划用它验证关卡、测试NPC交互逻辑、感受战斗节奏，而玩家的每一次操作都在实时驱动事件走向。

速度从以周计缩到以小时计。

实时虚拟陪伴，是「世界探索」与「实时导演」都能托起的方向。

它能实时生成一个随时可交互的虚拟角色：能听能说、长时间相处还保持一致，用户可以随时指挥它的动作。

虚拟伙伴、数字人IP、品牌虚拟形象，都能借此从「播一段片」升级为「实时陪着你」。

在互动短剧上，HappyOyster 1.0的暂停、回溯、分支三件套，等于把「分支叙事」的能力直接交给了创作者。

一个开头分叉出十条故事线，观众能在关键节点注入自己的指令、实时改写走向——

名场面重写结局、POV恋爱互动，制作方式也从「预先拍好多条线、每条都花钱」变成了「实时生成任意一条线」。

还有直播，是「实时」属性最天然的落点。

场景与角色都是实时生成的，主播或观众的一句指令就能即时改变画面走向。

无论是虚拟主播，还是实时互动直播，观众都不再只是「看」，而是能直接参与到画面的演化里。

文旅与虚拟体验则把「去哪、看什么」实时交给用户，同时利用世界模型在「无真实数据场景」中的模拟能力。

月球表面、海底宫殿、高魔幻境——这些现实中拍不到的地方，HappyOyster能在像素空间里持续模拟出来。

写在最后

HappyOyster 1.0版本把「一句话造世界」从概念变成了今天就能用的产品。

而据官方透露，API预计7月初开放——届时，开发者和B端的生态想象力还会进一步打开。

国内站 www.happyoyster.cn 已上线，手机号即可注册，每天登录送免费创作积分。

剩下的，就交给你的创造力了。