Sand.ai 创始人曹越,不太关心自己站在共识的哪一边。
Sand.ai 是一家视频生成模型和产品公司,成立于2024年1月。曹越创立Sand.ai 的故事也已经被讲过很多遍:在上一段创业“光年之外”戛然而止后,曹越很快就投入到 Sand.ai 的创业中,做视频生成模型。
彼时,市场的主流叙事是 Diffusion 路线,几乎没有人认为曹越选择的自回归(Autoregressive)路线是一种正解。
而在2025年初,发布基于自回归架构训练的模型 Magi-1 后,曹越很快意识到“只有画面是不够的”,于是团队开始探索音画同出。后来,Sand.ai 成为了除了Google VEO 3之外最早拿出音画同出模型的团队,Magi-1也在 Google DeepMind 的 Physics IQ benchmark 上长期保持第一。
2025年11月,曹越又下了一个赌注:决定带着团队将模型架构从 Dense 转向MoE,“那个时间点,国内应该几乎没有什么视频公司在全力推进这件事。”
“发布音画同出模型 Gaga-1 之后我们发现,在Dense架构下继续 Scale Up,成本会直线上升。视频模型存在一个不可能三角:成本、速度、效果。突破它只能靠研究手段,MoE 就是答案。”曹越说。
2026 年 Q3,Sand.ai 将发布新一代视频生成模型,采用 MoE 架构,兼顾高效推理与目前开源领域最大的参数规模。曹越表示:有信心做到头部水准,并且要把它开源给所有人。
这家公司也刚刚完成两轮合计超亿美元融资,投资方包括 Look Capital、Lollapalooza Capital(王慧文家办)、九坤创投、经纬创投、和玉资本(MSA Capital)、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。
创业近三年,无论是押注自回归路线、做音画同出,还是 MoE 架构,曹越的底层思考都是同源的:“在终局的情况下,是每个人都可以去消费非常个性化的内容。那在这个前提下,你的内容生产成本一定要下降到很低。”曹越说。
不变的另一点是,曹越并不关心自己是否站在市场共识这一边。“一旦你过于关心他人的认知,大概率是你没有从第一性原理去思考问题。”
同样的答案出现在我们问他“世界模型是什么”的时候。
“现在很noisy,”曹越说,“每个人在说世界模型的时候,大概率都不知道在说什么,它变成了一个 Buzzword 。”
世界模型是 2026 年最说不清道不明的 AI 概念之一。杨立昆、李飞飞等学术巨擘押注了完全不同的方向;与此同时,曾以“世界模拟器”之名震动行业的 Sora,已经在 3 月暂时停运。在国内,这个领域也涌现了多家明星初创,而不少以前做 3D 生成、视频生成的公司,也都在高调转向世界模型。
一方面,世界模型寄托了人们对未来模型路线的想象——一个融合语言、图像、视频、音频的统一模型;另一方面,在模型竞争通道越发逼仄的形势下,这个词也成了 fomo 情绪的出口。
曹越的判断是:世界模型还在“前 GPT 时代”——GPT-1 出现之前的时代,数据不够、定义不清、技术路线也远未收敛。
但他可以确定的是,视频模型是通往那个终局最重要的路径。“你要看什么数据距离世界的 Observation(观测)最接近,并且体量足够大,其实只有视频。”
在持续推进基础模型训练的同时,Sand.ai 已经在应用侧落子,探索过数字人、视频 Agent 等产品。今年 1 月上线的音乐 Agent 产品 VidMuse ,三个月已经做到千万美元 ARR 的体量。
“创业公司如果没有训练出 SOTA 模型的能力,很容易被模型厂商整合。”曹越并没有被“模型公司要不要做应用”这种时兴讨论所困扰,他表示,Sand.ai 还会继续边做模型边做应用。
在这轮融资完成之际,《智能涌现》与曹越聊了聊近三年来他的技术判断和应用探索。
以下为《智能涌现》对曹越观点的整理:
每一代模型,我们都在押注一个非共识我们从第一天就认为,自回归是对视频数据最本质的建模方式。
市场上大家都在做纯 Diffusion 模型的时候,我们认为视频在时序上一定是因果关系,很多物理规律,本质是一个随着时间变化的函数 —— Predict Next frame(预测下一帧)、Predict Next Second(预测下一秒),这是对视频这种数据最本质的训练范式。
我们是最早探索自回归视频生成的团队,去年发布的 Magi-1 在 Google-DeepMind 提出的物理真实性测试榜单 Physics-IQ 中取得第一,并长期保持领先,超越了 Nvidia 最新推出的旗舰级世界模型 Cosmos3-Super ,更远超 Sora-2 等其他纯 Diffusion 模型。
音画同出不只是功能升级,它是对世界状态更完整的压缩。
我们发布 Magi-1 之后发现,只有画面是不够的。声音和画面天然对齐,同时生成会让两者互相帮助——音画同出之后,哪怕只看画面,真实感也显著提升。本质上,同时拥有画面和声音,更接近对这个世界状态的表达,维度更高。所以我们在去年 5 月就开始探索音画同出,是除了 Google Veo-3 之外最早拿出音画同出模型的团队。
视频模型存在的不可能三角是:成本、速度、效果。去年我们就认为,只能靠研究突破, MoE 就是答案。
2025年我们决定转向 MoE,当时市场上没有几乎没有什么视频模型厂商公司全力在做这件事。
这是因为,发布音画同出模型 Gaga-1 之后,我们发现 Dense 模型继续 Scale Up 成本会直线上升——如果用 Dense 架构做到同样效果,推理成本至少贵 3 到 5 倍,训练成本也是。我们在那个时间点没有看到任何一家公司在做视频 MoE ,但我们认为它非常重要:第一,你要继续Scale Up 就必须搞定MoE;第二,如果你希望更多普通人用得起视频模型,就必须在同等效果下降低成本。
我们探索出了一套新的视频MoE架构和训练方案,跑通了视频模型做MoE的核心难题。
视频 MoE 和语言模型 MoE 面临的挑战不一样——视频的 Token 序列远比文本长,Token的冗余度也更高,因此通信开销、负载均衡和训练稳定性等问题都被放大了。我们为此在模型架构上做了多项创新,从而首次实现了超大规模视频 MoE 模型的稳定训练。
每一代模型我们都有一个Bet。Magi-1押注自回归,Gaga押注音画同出,新一代模型则是押注MoE。
7月我们要发布的新模型,就是这三代模型所积累的能力的汇合点——用MoE架构,把通用场景生成、音画同出、多镜头叙事、多参考生成全部融进同一个模型,目标是每个维度都做到SOTA。
为什么要融合?比如,Seedance 2.0 证明了多镜头叙事是一个刚需,这是一个我们之前没有认为那么重要的点。所以,类似这种功能在市场中被验证重要能力,最终都应该被 Merge(融合)到同一个模型里——它们不是互相独立的 Feature(能力),也会共同帮助模型取得更好的效果。
视频是通向世界模型的最重要路径,但也仅是一个中间加油站“世界模型”这个词已经被完全滥用了。每个人在说世界模型的时候,脑海里冒出的可能都是不一样的概念。
每一个概念背后都代表一种结构,你要理解它背后到底是什么,才能跟别人讨论。但现在很多人只是通过各种渠道大概知道这是个什么东西,它纯粹变成了一个buzzword。
目前,大家对世界模型的理解差异还非常大;第二,对这个事情什么时候产生真实价值,大家的时间预期也不对齐。
如果一定要给世界模型做一个定义,我认为它还在前GPT时代(GPT-1出现之前的时代)。
首先,我们没有数据。我们生活在一个3D空间加时间轴的世界,但画面、声音、温度、压力等数据,维度非常高,而我们没有对世界完整的、大批量的观测数据(Observation)。
对于世界模型的训练路径,也完全没有收敛。有一些人认为要通过“预测下一个状态”来实现,但我们认为,真正该预测的不是任何人为定义(Human-defined)的隐藏状态,而是世界本身给你的原始观测。
我们认为,视频数据是走向世界模型最重要的数据类型。
首先,视频数据是对世界观测数据里,规模最大的数据类型。它同时编码了时间、空间、视觉、听觉——是4D物理世界经由摄像头投影后的结构化切片,在所有可获取的世界观测数据中,信息密度最高、维度最丰富、体量最大。
视频远不止画面,视频中保留的信息远比直觉上更多,触觉、温度、材料属性、甚至意图和情感,大量在人类感知中属于其他模态的信息,也被编码在视觉和听觉的时序变化中。
有人说要“预测下一状态”,但没有人能帮助模型定义“状态”究竟是什么。
很多人认为直接预测(Observation)可能会有很多冗余,效率不够高,从而希望人为定义状态(State)来提高其训练效率。
这个教训LLM已经演示过一遍了——多少人试图显式建模词的表征、句子的表征、段落的结构,阶段性也确实被证明“高效”,但最终在规模化的路线上,全被 predict next token 杀死了。我们不应该在多模态建模上重蹈覆辙。
历史已经反复证明,每次试图用人类先验去拆解世界,本质上都是在低估它的复杂度,建议全文背诵The Bitter Lesson(苦涩的教训)。
我们认为,真正该预测的不是任何human-defined的隐藏状态,而是世界本身给你的原始观测——建模raw data(在视频里即pixels、frames、video)未必是阶段性最高效的方案,但大概率是最Scalable、上限最高的方案。
如果要给世界模型定义几个要素,第一,它的核心是预测——但要警惕用人类先验去定义“该预测什么”;第二,它需要足够完整、多维度的数据来压缩真实世界的信息;也就是要能从当前的观测直接推演下一刻的观测,而不是从一个人为定义的隐藏状态推演下一个状态。
从这个角度看,今天大家讲的很多“世界模型”,其实还只是很早期的东西。真正的世界模型,不是生成一段看起来合理的视频,而是要理解一个 3D 空间加时间轴上的世界,并且能够持续预测下一刻的真实观测。
视频生成模型的演进,也是在一步步逼近世界模型的过程。
你可以把视频模型的演进想象成一个孩子认识世界的过程。最开始他只能看照片,世界是静止的——这就是图像生成。
然后画面动起来了,他能看动画了——这就是早期的视频生成。再然后画面有了声音,风声、脚步声、碰撞声都出来了——这就是音画同出。
接着他发现换个角度看同一个房间,桌子椅子还在原来的位置——这是3D空间一致性。
慢慢地,他知道杯子推到桌边会掉下去——这是因果关系。最后他能伸手推门,门真的会开——这就是实时交互。
重点是:没有人给这个孩子塞一本物理课本,告诉他“重力是9.8、声速是340”。他就是从看到的、听到的越来越完整的观测里,自己搞明白了世界怎么运转的。
视频模型的演进,走的是一模一样的路——不是人为给模型定义“状态变量”,而是让它从越来越完整的观测中,自己长出对世界的理解。
作为一家创业公司,阶段性还是要想明白你的“加油站”在哪。
对于创业公司而言,训练出 SOTA 的视频生成模型后,可以做内容生产,可以卖 Token,可以做 Agent。内容生产天然是一个巨大的方向,它的闭环周期比类似具身这样的领域要快得多,你可以一步一步走到终局(AGI)。
要做模型,也要做产品做模型的公司做垂直整合之后,成本和体验都会更好。
为什么要模型和产品都做?
Claude Code 就是这样——Cursor 占了 Claude 很大比例的 API 调用,所以 Anthropic 看到以后,就自己做了。所以如果要抓住大的机会,你必须有训练 SOTA 模型的能力,纯产品公司在这个阶段会很难。
但在视频模型方向上,你很难只做一个卖 API 的公司,你还是得自己做产品,模型和产品必须双轮驱动。
在 AI 视频这个大方向上,模型和产品是距离很近的,非常明确地能吃到算力红利和数据红利,它拥有 Scaling Law。我们认为看一个产品方向的时候,终局可能相对容易想清楚,但切入点和路径不容易想清楚。所以,你需要有多产品矩阵的能力。
我们是以模型为核心的多产品矩阵打法——VidMuse 是其中一个探索,之前的Gaga模型发布后探索数字人也是如此,未来我们还会有新的产品。
模型和产品的目标可能有夹角,在创业公司里可能更好解决。
模型和产品有冲突怎么办?关键是你怎么处理这个夹角。对比大厂,创业公司的优势是:你可以让模型负责人和产品负责人都是公司最核心的人,他们和公司目标对齐,拥有 Founder Mode,让他们内心深处认为公司成功是最终目标,而不只是“我要把我这块业务做成”。
如果产品负责人觉得模型好坏跟产品无关,那当然没法平衡。但如果他有创业精神,他会想“模型侧有没有我能帮忙的”。
我们现阶段的产品策略是,找泛 AI 视频赛道当下时间点有大杠杆的事情。
AI 视频这个方向能做的产品就那么几大类:模型产品、泛Agent 产品、内容消费类产品。我们选了 Agent 方向,VidMuse 今年年初上线,两个月我们就做到 1000 万美金 ARR,说明这个方向的商业化是成立的。
用户每天生成各种内容,我们可以端到端收到用户的偏好——他认为什么好、什么不好。这些反馈有机会帮助模型的的后训练。我们的产品也不局限于只调用自己的模型,过程中收集的数据反馈,能让自己的模型效果更好。
视频领域过去两年一直是模型牵引产品。模型每解锁一个能力,产品侧就少搭一层脚手架。
以前没有多镜头,产品侧就得想办法解决怎么做多镜头;没有音画同出,就得配音配剪辑。现在这些都有了,帮模型兜底的事越来越少。但上面那层产品工作一直都在,只是内容发生了变化——模型能实时生成了,C 端就有新玩法。
我们的开源模型在持续贡献价值。
大公司最大的问题就是人多,大家在同一个代码库写代码,混乱程度增加。我们会通过组织设计让算法和 Infra 更有效地解耦合作,用更少人产生更大价值。我们开源的 MagiAttention 算子库现在被国内几乎所有多模态模型团队使用,英伟达官方也推荐用它训多模态模型。
我很少思考什么是共识、什么是非共识。我只思考什么是本质的、什么是对的。
共识的本质是你在思考大多数人怎么想,而不是从事情本身出发做第一性原理的思考。一旦你过于关心他人的认知,大概率就不是在从第一性原理思考问题了。
视频模型是牌桌逻辑,最后留下三五家Seedance 2.0的爆发,向市场证明了多镜头叙事是重要的。
音画同出是Veo3先实现,多镜头叙事是Sora2先实现,但Sora在多主体参考、多镜头叙事的细节效果上做得不够。
而Seedance 2.0 的爆发,是因为把这些维度补齐了,比如多镜头叙事上打磨得更扎实,细节也更精细,加上模型Scale Up和数据处理做得好,在这个阶段就吃到了一波红利。
视频模型的垄断程度,不会比语言模型更高。
现在视频模型的竞争烈度还没有语言模型这么高。现阶段视频和语言模型差不多,领先窗口大概在两三个月。
一个模型在某个时间切片上如果可以 SOTA,那个阶段呈现垄断状态是正常的。不过我觉得行业很快都会追上这个水平,那么每一家份额就会被稀释,最终不会有一家吃掉 95%,大概率是牌桌上留下三五家,一起分这个巨大的市场。
重点是只要你一直在牌桌上,就有机会吃到可观的一部分。
OpenAI 关停 Sora,是一次合理的战略收缩。
Sora 2 本身还是挺惊艳的,我觉得关停这个业务有它合理的逻辑。一是OpenAI 要上市,得阶段性优化短期目标,快速交出漂亮的结果;二是 OpenAI 在 Coding 上已经落后了,而 Claude 领先的Coding模型能把算力直接转化成现金流。
所以,在 Sora App 投入了巨大的算力却没换来一个足够可观的产品的情况下,把这部分算力平移到 Codex模型中,更可能撑起上市的业绩,所以这是在有短期上市预期加之主营业务落后下的战略收缩,他们做这个决策是合理的。
为什么中国能够快速在视频模型上做到世界 Tier 1?
我觉得这跟起步早晚有关。我们语言模型起步是偏晚的,国外从 GPT-1 、GPT-2 那时候就开始积累,这里面会有很多训练的 know-how,但国内是 2023 年才启动。视频模型做得好,是因为国内外起步时间差距不大,真正开始也就是从 Sora 算起,大家时间差不多。并且,国内的短视频生态也更活跃,这加速了模型的应用落地。
