ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

获超亿美元融资,Sand.ai曹越:视频模型如何解锁世界模型“终极密码”?

时间:2026-06-22 19:04:26来源:互联网编辑:快讯

在人工智能视频生成领域,Sand.ai创始人曹越的决策路径始终与市场主流保持微妙距离。当行业集体押注Diffusion路线时,他选择自回归架构作为技术底座;当多数团队聚焦画面质量时,他率先推动音画同步生成;在Dense架构仍占主导的2025年,其团队已转向混合专家模型(MoE)的研发。这种非共识策略正在显现成效——公司即将发布的MoE架构视频模型,在参数规模与推理效率上实现双重突破,同时宣布开源计划引发行业关注。

技术路线的三次关键转向印证了曹越的逆向思维。2024年创立之初,团队便认定视频数据的时序因果关系必须通过自回归方式建模,这种"预测下一帧"的原始范式使其Magi-1模型在物理真实性测试中持续领先。当行业发现声音与画面的协同效应时,Sand.ai已通过跨模态压缩技术实现音画同步生成,相关模型Gaga-1的推理成本较Dense架构降低60%。最新转向的MoE架构更攻克了视频Token序列过长导致的训练难题,通过动态路由机制将通信开销压缩至行业平均水平的1/3。

资本市场的认可为技术冒险提供坚实后盾。这家成立不足三年的公司连续完成两轮超亿美元融资,投资方阵容涵盖IDG、百度风投等20余家一线机构。星涵资本担任财务顾问的最新融资中,资金将主要用于千亿参数模型的预训练与多模态数据工程。值得注意的是,其开源的MagiAttention算子库已被英伟达官方推荐,国内多模态团队采用率超过90%,形成独特的技术生态位。

商业化落地呈现爆发式增长。今年1月上线的音乐创作Agent产品VidMuse,通过端到端用户反馈闭环优化模型,仅用三个月便实现千万美元年化收入。这种"模型-产品"双轮驱动模式,使公司避开被大厂整合的风险。曹越强调:"当模型能力成为基础设施时,产品团队必须具备定义新场景的能力。"目前其数字人产品已服务超过300家企业客户,多镜头叙事功能在影视预演市场占有率突破40%。

对于行业热议的世界模型概念,曹越保持审慎态度。他认为当前讨论存在三大认知偏差:数据维度不足、训练路径未收敛、评估标准模糊。"真正的世界模型需要直接预测原始观测数据,而非人为定义的状态变量。"在其技术路线图中,视频模型被视为通向世界模型的中间阶段——通过持续积累4D时空数据,逐步逼近对物理世界的完整理解。这种观点与OpenAI关停Sora业务的决策形成有趣对照,后者被解读为战略收缩,而Sand.ai则选择在视频生成赛道持续加注。

竞争格局分析显示,视频模型领域尚未出现绝对垄断者。曹越判断,最终市场将容纳3-5家头部企业,技术迭代窗口期约2-3个月。中国团队的后发优势源于短视频生态的繁荣,国内日均产生的UGC视频数据量是海外的3倍,这为模型训练提供独特养料。Sand.ai的应对策略是构建"基础模型+垂直场景"的矩阵,通过开源社区扩大影响力,同时用Agent产品捕捉商业化机会。

在技术哲学层面,曹越反复强调第一性原理的重要性。"当你在意共识时,本质上是在用别人的认知边界限制自己。"这种思维模式贯穿公司发展历程:从拒绝跟随Diffusion路线,到突破视频不可能三角,再到重新定义世界模型的技术路径。随着新一代MoE模型发布在即,这场由非共识驱动的技术实验,正在改写AI视频生成的竞争规则。

更多热门内容
云鲸张峻彬WAVES2026分享:十年创新路,以用户需求为火种点亮家庭清洁未来
这个是2019年4月,云鲸第一代产品小白鲸J1全球首发,我们当时在 Kickstarter上线了产品,云鲸也凭借了全球首款可以自己洗拖布的自清洁机器人,实现了突破性的首发。。 云鲸从2019年发布全球首款…

2026-06-22

阿里巴巴HappyHorse 1.1升级发布:动态表现、主体一致性等多维度能力显著提升
IT之家 6 月 22 日消息,今日阿里巴巴发布视频生成模型 HappyHorse 1.1,较 1.0版本,在动态表现力、主体一致性、指令遵循、视觉质感和音频能力等维度系统性升级。 通过强化模型对多源参考国…

2026-06-22