范浩奇：字节Seed世界模型负责人，何恺明老搭档，要在6个月内追上Google最强世界模型-业界动态-ITBear科技资讯

2025年5月，一款名为BAGEL的开源多模态模型在Hugging Face上登顶趋势榜第一。它在标准多模态理解测试中超过了当时热门的Qwen2.5-VL，被社区视为GPT-4o和Gemini 2.0最强有力的开源替代方案。但最让发布团队意外的不是榜单排名，而是他们在训练中发现：随着交错多模态数据的规模持续扩大，模型自己涌现出了推理能力。这不是刻意设计的结果，而是庞大的数据库自发创造的惊喜。

这个项目背后的人叫范浩奇，谷歌学术总引用量超过四万次，与何恺明共同创作的MoCo论文改变了计算机视觉领域对自监督学习的认知。几乎在过去十年计算机视觉领域的每一次范式转移中都有它的参与：CNN时代的SlowFast，Transformer时代的MViT和MAE-ST，多模态时代的BAGEL。

2026年春节刚过，字节跳动Seed团队就把新成立的世界模型研究组交给了范浩奇。这一次，他的任务是：2026年底之前，拿出一款性能对标Google Genie 3的世界模型。字节为此批下了数千万元的训练数据预算，是其他厂商的三到四倍，招聘开出的薪酬比市场平均水平高出百分之三十到五十。一个在FAIR（Facebook AI Research）待了七年的研究员，回国不到两年，就被推到了一场全球竞争的最前沿。而敢于直面挑战，也正是范浩奇数十年来的工作准则。

冷门方向的起点

2013年，范浩奇远渡重洋，进入卡内基梅隆大学机器人研究所。这所学院在全球机器人学领域排名第一，以机器人控制、SLAM、机械设计等硬核方向著称。大多数毕业生去了波士顿动力和NASA，或者自己创办机器人公司。范浩奇在这里选择的研究方向，对于当时的计算机视觉领域而言，属于冷门中的冷门：第一人称视觉活动识别。

后来与他长期合作的Christoph Feichtenhofer在一次访谈中提到：“好的研究者不是追逐热点的人，而是找到重要问题并持续投入的人。”范浩奇在CMU的选择，也许是这句话最早的注脚。

范浩奇的导师是Kris Kitani教授，专注于第一视角视觉、行为预测和人机交互的研究。在Kitani的指导下，范浩奇参与了第一人称活动识别的研究，相关成果以第二作者身份发表于CVPR 2016。硕士毕业后，在CVPR 2018上，他以第一作者发表了关于多模态推理的论文《Stacked Latent Attention for Multimodal Reasoning》。对于一个硕士毕业生来说，两篇CVPR已经是相当漂亮的成绩单。

在CMU的几年里，他收获了底层训练的思维能力：从系统层面理解问题，而不是从某个具体的benchmark出发。机器人研究所的思维方式让他学会不能只关心“这个视觉信号是什么”，还必须注意“这个信号对应着怎样的物理世界、应该做出什么反应”。这种看问题的角度，让他在后来转向多模态、世界模型等领域的时候，变成了一种独特的先发优势。

硕士毕业后，他没有继续读博，而是直接进入了工业界。当时正值深度学习浪潮席卷全球，Facebook AI Research正处于最激进的扩张期，大批顶尖研究者从学术界涌入。范浩奇选择了FAIR，一待就是七年。

在FAIR站稳脚跟

2016年，范浩奇加入Facebook AI Research。那时的FAIR是全球AI研究员最向往的实验室之一——Yann LeCun坐镇，Ross Girshick的Faster R-CNN统治着目标检测，何恺明刚刚用ResNet刷新了人们对深度学习深度的认知。

在FAIR的头几年，他并不是最引人注目的那个名字。但如果你翻阅2016到2020年间FAIR产出的视频理解方向论文，他的名字几乎无处不在。视频理解，也是范浩奇加入FAIR立稳脚跟的第一张牌。当时，何恺明和Christoph Feichtenhofer提出了一个想法：设计两条并行的网络路径，一条处理慢速的语义信息，一条捕捉快速的时间动态。这个想法后来被命名为SlowFast。SlowFast是FAIR视频理解团队共同完成的工作，范浩奇是核心作者之一，负责大规模实验验证与系统落地，与Feichtenhofer、何恺明等人深度协作完成了这一工作。2019年，SlowFast被ICCV接收为Oral论文，成为视频理解领域的标杆工作之一。范浩奇通过这个项目证明了，他能把顶级的想法变成顶级的执行。

同期，他主导开发了PySlowFast代码库，这个开源工具后来成为全球视频理解研究者的标准工具箱，在GitHub上获得高星。2019年6月，他带领团队在AVA视频活动检测挑战赛中获得第一名。同年11月，他开始在ICCV合办视觉识别教程，随后又在CVPR 2020和ECCV 2020延续了这一工作——在学术界，教程组织者通常是领域内公认的专家才被邀请担任的角色。在三十岁之前，范浩奇已经是视频理解领域被同行认可的重要人物。

但真正让他从实验室的年轻人中站出来的，是2020年的MoCo。在2019年底，计算机视觉领域的主流观点仍然是：没有标签的视觉模型不可能达到监督学习的水平。但何恺明认为：可以用动量对比的方式构建一个动态字典，让模型从大量无标签数据中学习有用的视觉表征。在MoCo的研发过程中，范浩奇承担了核心的系统实现与实验验证工作，与何恺明紧密协作——这也是两人长期合作模式的起点。

2020年6月，MoCo被CVPR接收为Oral论文，获得最佳论文提名。消息公布后，整个自监督学习领域开始快速转向——研究者们突然意识到，无监督学习确实可以做到和监督学习接近甚至更好的效果。MoCo的代码被开源，成为该领域使用最广泛的基准工作之一。范浩奇的谷歌学术在2020年迎来了第一次陡峭的攀升，年度引用从上一年的224跃升到1120。

MoCo之后，范浩奇与何恺明的合作就保持了长期且稳定的关系。2020年的MoCo v2，2022年的MAE-ST……在FAIR的华人研究员群体中，范浩奇是少数几个能与何恺明持续合作多篇重磅论文的年轻人。他们的工作模式是：何恺明擅长提出概念性和方向性的想法，范浩奇擅长把这些想法快速落地为实验结果，并用实验反馈来修正和优化原始思路。这是一个高效的闭环。

在FAIR的七年里，范浩奇从何恺明和其他资深研究员身上学到的最重要的东西，可能不是具体的技术，而是一种判断力——什么样的问题是真正值得花时间去解决的，什么样的方向在长期来看更重要。这种判断力，后来成为他在每一次范式转移前都能提前转身的核心支撑。

在热点转移之前提前出发

“如果你在一个研究领域中停留太久，你很可能会在下一个浪潮到来时丧失竞争力。与其被动地被技术演进淘汰，不如主动淘汰自己已有的存量优势。”这似乎是范浩明一以贯之的判断逻辑。而这个逻辑在2023年得到了验证。

2020年到2022年，计算机视觉领域经历了剧烈的范式转移。CNN的统治地位开始松动，Transformer从自然语言处理“跨界”到视觉领域，自监督学习从边缘走向主流，多模态模型开始展现出超越纯视觉模型的能力。很多在CNN时代积累了丰富经验的研究者在这波浪潮中措手不及，因为过去赖以成名的工具和框架突然变得不再适用。

范浩奇的应对方式是：在每一个拐点到来之前，主动换道。2021年，他参与了多尺度视觉Transformer的研究。当时Vision Transformer刚刚出现，大多数研究者还在摸索如何将Transformer有效地应用到视觉任务上。而范浩奇已经开始针对视频数据的时空特性设计多尺度的Transformer结构，让模型能够同时捕捉精细的空间细节和长程的时间依赖。

2022年，他与何恺明再次联手，将掩码自编码器从图像扩展到视频时空域，提出了MAE-ST。何恺明的MAE在图像领域已经证明了掩码策略的有效性，但如何将其迁移到视频——这个具有时间维度的数据形态——是一个关键的技术难题。同一年，他还参与了FLIP的研究，开始涉足视觉与语言结合的方向。这个转向在当时看来并不显眼，但它标志着范浩奇的研究边界正在从“让机器看懂图像”拓展到“让机器同时理解图像和语言”。这个转向为他日后进入多模态领域积累了方法论基础。

这三项工作放在一起看，可以捕捉到范浩奇身上一个不太被提及的特质：他愿意主动放弃已有的优势。MoCo已经让他站在了自监督学习的前沿，如果愿意，他完全可以在那个方向上持续深耕，每年稳定产出，积累更高的引用量。但他没有这么做。他先后从自监督转向了Transformer架构，又从纯视觉转向了视觉-语言结合。每一次转向都意味着离开熟悉的领域，进入一个需要重新学习、重新证明自己的新战场。

Hugging Face第一的背后

2023年末，范浩奇选择离开meta FAIR，加入字节跳动Seed团队。从外部看，这是一个放弃了很多确定性的决定。

彼时的他，参与的多项工作已经成为计算机视觉领域的标杆——自监督学习的MoCo、视频理解的SlowFast、时空掩码自编码器MAE-ST。留下来的剧本清晰可见：升职，带更大的团队，安稳地成为这个领域的权威。

彼时，DeepSeek、月之暗面已经凭借语言模型完成了第一轮声量积累；字节的Seed团队却成立还不到一年，视觉基础模型方向还在从零搭建。

加入字节后，范浩奇启动了一个名为BAGEL的项目。当时的开源多模态模型有一个普遍问题：要么只做理解，要么只做生成，很少有把两者统一起来且效果足够好的。于是，范浩奇团队希望做一款统一的、开源的多模态理解和生成模型。他们采取了一个相对激进的策略——大规模收集和清洗交错多模态数据，然后把数据喂给模型，赌的是数据规模本身能带来质变。

这个策略执行了将近一年。2025年5月，BAGEL正式发布。结果超出预期：发布后不到24小时，在Hugging Face趋势榜上登顶第一。在多模态理解的标准测试中，BAGEL超过了当时同样备受关注的Qwen2.5-VL。

但让团队最兴奋的不是榜单排名，而是一个没有预设过的发现。在BAGEL的技术报告中写道："令我们最惊讶的是，当交错多模态数据的规模扩大到一定程度时，模型涌现出了推理能力。"团队在设计BAGEL时没有专门针对推理能力做过优化，他们只是不断增大数据规模，然后发现模型开始能够回答需要多步推理的复杂问题了。这并不是固有的设计，而是大量数据堆出来的突然涌现。范浩奇本人在推特上提到这个发现时用了一个词——"surprised"。

数千万元的赌注

2026年初，字节跳动Seed团队把新成立的世界模型研究组交给了范浩奇。他研究3D仿真路线，主攻娱乐和游戏场景；字节的另一团队李航和王文千走VLA路线，主攻具身智能。他们的目标是一致的——让AI从只能生成文字和图片，进化到能理解物理世界的运行逻辑。

这个方向在学术界被称为"世界模型"，核心是让AI学会理解物理世界中的因果关系、空间关系和时间演化规律。2025年8月，Google DeepMind发布了Genie 3，成为全球在这个方向上表现最突出的模型。字节为范浩奇设置了极有挑战性的目标：2026年底之前，拿出性能对标Genie 3的产品。

字节为这个目标配置的资源令人侧目。据行业媒体报道，训练数据预算高达数千万元，是其他厂商的三到四倍。在招聘方面，字节向DeepSeek、OpenAI、DeepMind、meta的研究员发起定向挖猎，范浩奇团队开出的薪酬比市场平均水平高出30%到50%，研究员的年薪范围在180万到250万之间。字节愿意下这个注，是因为他们判断世界模型可能是继大语言模型之后AI行业最重要的战场，谁能先做出足够好的世界模型，谁就有可能在下一代技术范式中占据主动。

从被任命到年底，不到十二个月。范浩奇的团队需要在这段时间里拿出对标Google最强模型的产品。这个目标能不能实现，现在还没有答案。数据标注团队50人在春节期间没有休息，在为这个目标竭尽全力地努力着。但在整个中国AI行业里，能被委以这样的责任、拿到这样的资源、被寄予这样的期望的人，委实不算多。

从第一人称视频到世界模型，范浩奇的研究对象从“人在做什么”变成了“物理世界如何运行”。虽然他从未解释过为什么总是选择这些边界模糊的问题来研究，但事后回看，他的每一次转向，方向都对了。而这一次的结果，会在2026年底给出他的答卷。