获超亿美元融资，Sand.ai 曹越：为什么视频是通往世界模型最重要的路径-业界动态-ITBear科技资讯

Sand.ai 创始人曹越，不太关心自己站在共识的哪一边。

Sand.ai 是一家视频生成模型和产品公司，成立于2024年1月。曹越创立Sand.ai 的故事也已经被讲过很多遍：在上一段创业“光年之外”戛然而止后，曹越很快就投入到 Sand.ai 的创业中，做视频生成模型。

彼时，市场的主流叙事是 Diffusion 路线，几乎没有人认为曹越选择的自回归（Autoregressive）路线是一种正解。

而在2025年初，发布基于自回归架构训练的模型 Magi-1 后，曹越很快意识到“只有画面是不够的”，于是团队开始探索音画同出。后来，Sand.ai 成为了除了Google VEO 3之外最早拿出音画同出模型的团队，Magi-1也在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。

2025年11月，曹越又下了一个赌注：决定带着团队将模型架构从 Dense 转向MoE，“那个时间点，国内应该几乎没有什么视频公司在全力推进这件事。”

“发布音画同出模型 Gaga-1 之后我们发现，在Dense架构下继续 Scale Up，成本会直线上升。视频模型存在一个不可能三角：成本、速度、效果。突破它只能靠研究手段，MoE 就是答案。”曹越说。

2026 年 Q3，Sand.ai 将发布新一代视频生成模型，采用 MoE 架构，兼顾高效推理与目前开源领域最大的参数规模。曹越表示：有信心做到头部水准，并且要把它开源给所有人。

这家公司也刚刚完成两轮合计超亿美元融资，投资方包括 Look Capital、Lollapalooza Capital（王慧文家办）、九坤创投、经纬创投、和玉资本（MSA Capital）、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。

创业近三年，无论是押注自回归路线、做音画同出，还是 MoE 架构，曹越的底层思考都是同源的：“在终局的情况下，是每个人都可以去消费非常个性化的内容。那在这个前提下，你的内容生产成本一定要下降到很低。”曹越说。

不变的另一点是，曹越并不关心自己是否站在市场共识这一边。“一旦你过于关心他人的认知，大概率是你没有从第一性原理去思考问题。”

同样的答案出现在我们问他“世界模型是什么”的时候。

“现在很noisy，”曹越说，“每个人在说世界模型的时候，大概率都不知道在说什么，它变成了一个 Buzzword 。”

世界模型是 2026 年最说不清道不明的 AI 概念之一。杨立昆、李飞飞等学术巨擘押注了完全不同的方向；与此同时，曾以“世界模拟器”之名震动行业的 Sora，已经在 3 月暂时停运。在国内，这个领域也涌现了多家明星初创，而不少以前做 3D 生成、视频生成的公司，也都在高调转向世界模型。

一方面，世界模型寄托了人们对未来模型路线的想象——一个融合语言、图像、视频、音频的统一模型；另一方面，在模型竞争通道越发逼仄的形势下，这个词也成了 fomo 情绪的出口。

曹越的判断是：世界模型还在“前 GPT 时代”——GPT-1 出现之前的时代，数据不够、定义不清、技术路线也远未收敛。

但他可以确定的是，视频模型是通往那个终局最重要的路径。“你要看什么数据距离世界的 Observation（观测）最接近，并且体量足够大，其实只有视频。”

在持续推进基础模型训练的同时，Sand.ai 已经在应用侧落子，探索过数字人、视频 Agent 等产品。今年 1 月上线的音乐 Agent 产品 VidMuse ，三个月已经做到千万美元 ARR 的体量。

“创业公司如果没有训练出 SOTA 模型的能力，很容易被模型厂商整合。”曹越并没有被“模型公司要不要做应用”这种时兴讨论所困扰，他表示，Sand.ai 还会继续边做模型边做应用。

在这轮融资完成之际，《智能涌现》与曹越聊了聊近三年来他的技术判断和应用探索。

以下为《智能涌现》对曹越观点的整理：

每一代模型，我们都在押注一个非共识

我们从第一天就认为，自回归是对视频数据最本质的建模方式。

市场上大家都在做纯 Diffusion 模型的时候，我们认为视频在时序上一定是因果关系，很多物理规律，本质是一个随着时间变化的函数 —— Predict Next frame（预测下一帧）、Predict Next Second（预测下一秒），这是对视频这种数据最本质的训练范式。

我们是最早探索自回归视频生成的团队，去年发布的 Magi-1 在 Google-DeepMind 提出的物理真实性测试榜单 Physics-IQ 中取得第一，并长期保持领先，超越了 Nvidia 最新推出的旗舰级世界模型 Cosmos3-Super ，更远超 Sora-2 等其他纯 Diffusion 模型。

音画同出不只是功能升级，它是对世界状态更完整的压缩。

我们发布 Magi-1 之后发现，只有画面是不够的。声音和画面天然对齐，同时生成会让两者互相帮助——音画同出之后，哪怕只看画面，真实感也显著提升。本质上，同时拥有画面和声音，更接近对这个世界状态的表达，维度更高。所以我们在去年 5 月就开始探索音画同出，是除了 Google Veo-3 之外最早拿出音画同出模型的团队。

视频模型存在的不可能三角是：成本、速度、效果。去年我们就认为，只能靠研究突破， MoE 就是答案。

2025年我们决定转向 MoE，当时市场上没有几乎没有什么视频模型厂商公司全力在做这件事。

这是因为，发布音画同出模型 Gaga-1 之后，我们发现 Dense 模型继续 Scale Up 成本会直线上升——如果用 Dense 架构做到同样效果，推理成本至少贵 3 到 5 倍，训练成本也是。我们在那个时间点没有看到任何一家公司在做视频 MoE ，但我们认为它非常重要：第一，你要继续Scale Up 就必须搞定MoE；第二，如果你希望更多普通人用得起视频模型，就必须在同等效果下降低成本。

我们探索出了一套新的视频MoE架构和训练方案，跑通了视频模型做MoE的核心难题。

视频 MoE 和语言模型 MoE 面临的挑战不一样——视频的 Token 序列远比文本长，Token的冗余度也更高，因此通信开销、负载均衡和训练稳定性等问题都被放大了。我们为此在模型架构上做了多项创新，从而首次实现了超大规模视频 MoE 模型的稳定训练。

每一代模型我们都有一个Bet。Magi-1押注自回归，Gaga押注音画同出，新一代模型则是押注MoE。

7月我们要发布的新模型，就是这三代模型所积累的能力的汇合点——用MoE架构，把通用场景生成、音画同出、多镜头叙事、多参考生成全部融进同一个模型，目标是每个维度都做到SOTA。

为什么要融合？比如，Seedance 2.0 证明了多镜头叙事是一个刚需，这是一个我们之前没有认为那么重要的点。所以，类似这种功能在市场中被验证重要能力，最终都应该被 Merge（融合）到同一个模型里——它们不是互相独立的 Feature（能力），也会共同帮助模型取得更好的效果。

视频是通向世界模型的最重要路径，但也仅是一个中间加油站

“世界模型”这个词已经被完全滥用了。每个人在说世界模型的时候，脑海里冒出的可能都是不一样的概念。

每一个概念背后都代表一种结构，你要理解它背后到底是什么，才能跟别人讨论。但现在很多人只是通过各种渠道大概知道这是个什么东西，它纯粹变成了一个buzzword。

目前，大家对世界模型的理解差异还非常大；第二，对这个事情什么时候产生真实价值，大家的时间预期也不对齐。

如果一定要给世界模型做一个定义，我认为它还在前GPT时代（GPT-1出现之前的时代）。

首先，我们没有数据。我们生活在一个3D空间加时间轴的世界，但画面、声音、温度、压力等数据，维度非常高，而我们没有对世界完整的、大批量的观测数据（Observation）。

对于世界模型的训练路径，也完全没有收敛。有一些人认为要通过“预测下一个状态”来实现，但我们认为，真正该预测的不是任何人为定义（Human-defined）的隐藏状态，而是世界本身给你的原始观测。

我们认为，视频数据是走向世界模型最重要的数据类型。

首先，视频数据是对世界观测数据里，规模最大的数据类型。它同时编码了时间、空间、视觉、听觉——是4D物理世界经由摄像头投影后的结构化切片，在所有可获取的世界观测数据中，信息密度最高、维度最丰富、体量最大。

视频远不止画面，视频中保留的信息远比直觉上更多，触觉、温度、材料属性、甚至意图和情感，大量在人类感知中属于其他模态的信息，也被编码在视觉和听觉的时序变化中。

有人说要“预测下一状态”，但没有人能帮助模型定义“状态”究竟是什么。

很多人认为直接预测（Observation）可能会有很多冗余，效率不够高，从而希望人为定义状态（State）来提高其训练效率。

这个教训LLM已经演示过一遍了——多少人试图显式建模词的表征、句子的表征、段落的结构，阶段性也确实被证明“高效”，但最终在规模化的路线上，全被 predict next token 杀死了。我们不应该在多模态建模上重蹈覆辙。

历史已经反复证明，每次试图用人类先验去拆解世界，本质上都是在低估它的复杂度，建议全文背诵The Bitter Lesson（苦涩的教训）。

我们认为，真正该预测的不是任何human-defined的隐藏状态，而是世界本身给你的原始观测——建模raw data（在视频里即pixels、frames、video）未必是阶段性最高效的方案，但大概率是最Scalable、上限最高的方案。

如果要给世界模型定义几个要素，第一，它的核心是预测——但要警惕用人类先验去定义“该预测什么”；第二，它需要足够完整、多维度的数据来压缩真实世界的信息；也就是要能从当前的观测直接推演下一刻的观测，而不是从一个人为定义的隐藏状态推演下一个状态。

从这个角度看，今天大家讲的很多“世界模型”，其实还只是很早期的东西。真正的世界模型，不是生成一段看起来合理的视频，而是要理解一个 3D 空间加时间轴上的世界，并且能够持续预测下一刻的真实观测。

视频生成模型的演进，也是在一步步逼近世界模型的过程。

你可以把视频模型的演进想象成一个孩子认识世界的过程。最开始他只能看照片，世界是静止的——这就是图像生成。

然后画面动起来了，他能看动画了——这就是早期的视频生成。再然后画面有了声音，风声、脚步声、碰撞声都出来了——这就是音画同出。

接着他发现换个角度看同一个房间，桌子椅子还在原来的位置——这是3D空间一致性。

慢慢地，他知道杯子推到桌边会掉下去——这是因果关系。最后他能伸手推门，门真的会开——这就是实时交互。

重点是：没有人给这个孩子塞一本物理课本，告诉他“重力是9.8、声速是340”。他就是从看到的、听到的越来越完整的观测里，自己搞明白了世界怎么运转的。

视频模型的演进，走的是一模一样的路——不是人为给模型定义“状态变量”，而是让它从越来越完整的观测中，自己长出对世界的理解。

作为一家创业公司，阶段性还是要想明白你的“加油站”在哪。

对于创业公司而言，训练出 SOTA 的视频生成模型后，可以做内容生产，可以卖 Token，可以做 Agent。内容生产天然是一个巨大的方向，它的闭环周期比类似具身这样的领域要快得多，你可以一步一步走到终局（AGI）。

要做模型，也要做产品

做模型的公司做垂直整合之后，成本和体验都会更好。

为什么要模型和产品都做？

Claude Code 就是这样——Cursor 占了 Claude 很大比例的 API 调用，所以 Anthropic 看到以后，就自己做了。所以如果要抓住大的机会，你必须有训练 SOTA 模型的能力，纯产品公司在这个阶段会很难。

但在视频模型方向上，你很难只做一个卖 API 的公司，你还是得自己做产品，模型和产品必须双轮驱动。

在 AI 视频这个大方向上，模型和产品是距离很近的，非常明确地能吃到算力红利和数据红利，它拥有 Scaling Law。我们认为看一个产品方向的时候，终局可能相对容易想清楚，但切入点和路径不容易想清楚。所以，你需要有多产品矩阵的能力。

我们是以模型为核心的多产品矩阵打法——VidMuse 是其中一个探索，之前的Gaga模型发布后探索数字人也是如此，未来我们还会有新的产品。

模型和产品的目标可能有夹角，在创业公司里可能更好解决。

模型和产品有冲突怎么办？关键是你怎么处理这个夹角。对比大厂，创业公司的优势是：你可以让模型负责人和产品负责人都是公司最核心的人，他们和公司目标对齐，拥有 Founder Mode，让他们内心深处认为公司成功是最终目标，而不只是“我要把我这块业务做成”。

如果产品负责人觉得模型好坏跟产品无关，那当然没法平衡。但如果他有创业精神，他会想“模型侧有没有我能帮忙的”。

我们现阶段的产品策略是，找泛 AI 视频赛道当下时间点有大杠杆的事情。

AI 视频这个方向能做的产品就那么几大类：模型产品、泛Agent 产品、内容消费类产品。我们选了 Agent 方向，VidMuse 今年年初上线，两个月我们就做到 1000 万美金 ARR，说明这个方向的商业化是成立的。

用户每天生成各种内容，我们可以端到端收到用户的偏好——他认为什么好、什么不好。这些反馈有机会帮助模型的的后训练。我们的产品也不局限于只调用自己的模型，过程中收集的数据反馈，能让自己的模型效果更好。

视频领域过去两年一直是模型牵引产品。模型每解锁一个能力，产品侧就少搭一层脚手架。

以前没有多镜头，产品侧就得想办法解决怎么做多镜头；没有音画同出，就得配音配剪辑。现在这些都有了，帮模型兜底的事越来越少。但上面那层产品工作一直都在，只是内容发生了变化——模型能实时生成了，C 端就有新玩法。

我们的开源模型在持续贡献价值。

大公司最大的问题就是人多，大家在同一个代码库写代码，混乱程度增加。我们会通过组织设计让算法和 Infra 更有效地解耦合作，用更少人产生更大价值。我们开源的 MagiAttention 算子库现在被国内几乎所有多模态模型团队使用，英伟达官方也推荐用它训多模态模型。

我很少思考什么是共识、什么是非共识。我只思考什么是本质的、什么是对的。

共识的本质是你在思考大多数人怎么想，而不是从事情本身出发做第一性原理的思考。一旦你过于关心他人的认知，大概率就不是在从第一性原理思考问题了。

视频模型是牌桌逻辑，最后留下三五家

Seedance 2.0的爆发，向市场证明了多镜头叙事是重要的。

音画同出是Veo3先实现，多镜头叙事是Sora2先实现，但Sora在多主体参考、多镜头叙事的细节效果上做得不够。

而Seedance 2.0 的爆发，是因为把这些维度补齐了，比如多镜头叙事上打磨得更扎实，细节也更精细，加上模型Scale Up和数据处理做得好，在这个阶段就吃到了一波红利。

视频模型的垄断程度，不会比语言模型更高。

现在视频模型的竞争烈度还没有语言模型这么高。现阶段视频和语言模型差不多，领先窗口大概在两三个月。

一个模型在某个时间切片上如果可以 SOTA，那个阶段呈现垄断状态是正常的。不过我觉得行业很快都会追上这个水平，那么每一家份额就会被稀释，最终不会有一家吃掉 95%，大概率是牌桌上留下三五家，一起分这个巨大的市场。

重点是只要你一直在牌桌上，就有机会吃到可观的一部分。

OpenAI 关停 Sora，是一次合理的战略收缩。

Sora 2 本身还是挺惊艳的，我觉得关停这个业务有它合理的逻辑。一是OpenAI 要上市，得阶段性优化短期目标，快速交出漂亮的结果；二是 OpenAI 在 Coding 上已经落后了，而 Claude 领先的Coding模型能把算力直接转化成现金流。

所以，在 Sora App 投入了巨大的算力却没换来一个足够可观的产品的情况下，把这部分算力平移到 Codex模型中，更可能撑起上市的业绩，所以这是在有短期上市预期加之主营业务落后下的战略收缩，他们做这个决策是合理的。

为什么中国能够快速在视频模型上做到世界 Tier 1？

我觉得这跟起步早晚有关。我们语言模型起步是偏晚的，国外从 GPT-1 、GPT-2 那时候就开始积累，这里面会有很多训练的 know-how，但国内是 2023 年才启动。视频模型做得好，是因为国内外起步时间差距不大，真正开始也就是从 Sora 算起，大家时间差不多。并且，国内的短视频生态也更活跃，这加速了模型的应用落地。