ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

范浩奇:字节Seed世界模型负责人,何恺明老搭档,要在6个月内追上Google最强世界模型

时间:2026-06-29 19:02:53来源:Z Finance编辑:快讯

2025年5月,一款名为BAGEL的开源多模态模型在Hugging Face上登顶趋势榜第一。它在标准多模态理解测试中超过了当时热门的Qwen2.5-VL,被社区视为GPT-4o和Gemini 2.0最强有力的开源替代方案。但最让发布团队意外的不是榜单排名,而是他们在训练中发现:随着交错多模态数据的规模持续扩大,模型自己涌现出了推理能力。这不是刻意设计的结果,而是庞大的数据库自发创造的惊喜。

这个项目背后的人叫范浩奇,谷歌学术总引用量超过四万次,与何恺明共同创作的MoCo论文改变了计算机视觉领域对自监督学习的认知。几乎在过去十年计算机视觉领域的每一次范式转移中都有它的参与:CNN时代的SlowFast,Transformer时代的MViT和MAE-ST,多模态时代的BAGEL。

2026年春节刚过,字节跳动Seed团队就把新成立的世界模型研究组交给了范浩奇。这一次,他的任务是:2026年底之前,拿出一款性能对标Google Genie 3的世界模型。字节为此批下了数千万元的训练数据预算,是其他厂商的三到四倍,招聘开出的薪酬比市场平均水平高出百分之三十到五十。一个在FAIR(Facebook AI Research)待了七年的研究员,回国不到两年,就被推到了一场全球竞争的最前沿。而敢于直面挑战,也正是范浩奇数十年来的工作准则。

冷门方向的起点

2013年,范浩奇远渡重洋,进入卡内基梅隆大学机器人研究所。这所学院在全球机器人学领域排名第一,以机器人控制、SLAM、机械设计等硬核方向著称。大多数毕业生去了波士顿动力和NASA,或者自己创办机器人公司。范浩奇在这里选择的研究方向,对于当时的计算机视觉领域而言,属于冷门中的冷门:第一人称视觉活动识别。

后来与他长期合作的Christoph Feichtenhofer在一次访谈中提到:“好的研究者不是追逐热点的人,而是找到重要问题并持续投入的人。”范浩奇在CMU的选择,也许是这句话最早的注脚。

范浩奇的导师是Kris Kitani教授,专注于第一视角视觉、行为预测和人机交互的研究。在Kitani的指导下,范浩奇参与了第一人称活动识别的研究,相关成果以第二作者身份发表于CVPR 2016。硕士毕业后,在CVPR 2018上,他以第一作者发表了关于多模态推理的论文《Stacked Latent Attention for Multimodal Reasoning》。对于一个硕士毕业生来说,两篇CVPR已经是相当漂亮的成绩单。

在CMU的几年里,他收获了底层训练的思维能力:从系统层面理解问题,而不是从某个具体的benchmark出发。机器人研究所的思维方式让他学会不能只关心“这个视觉信号是什么”,还必须注意“这个信号对应着怎样的物理世界、应该做出什么反应”。这种看问题的角度,让他在后来转向多模态、世界模型等领域的时候,变成了一种独特的先发优势。

硕士毕业后,他没有继续读博,而是直接进入了工业界。当时正值深度学习浪潮席卷全球,Facebook AI Research正处于最激进的扩张期,大批顶尖研究者从学术界涌入。范浩奇选择了FAIR,一待就是七年。

在FAIR站稳脚跟

2016年,范浩奇加入Facebook AI Research。那时的FAIR是全球AI研究员最向往的实验室之一——Yann LeCun坐镇,Ross Girshick的Faster R-CNN统治着目标检测,何恺明刚刚用ResNet刷新了人们对深度学习深度的认知。

在FAIR的头几年,他并不是最引人注目的那个名字。但如果你翻阅2016到2020年间FAIR产出的视频理解方向论文,他的名字几乎无处不在。视频理解,也是范浩奇加入FAIR立稳脚跟的第一张牌。当时,何恺明和Christoph Feichtenhofer提出了一个想法:设计两条并行的网络路径,一条处理慢速的语义信息,一条捕捉快速的时间动态。这个想法后来被命名为SlowFast。SlowFast是FAIR视频理解团队共同完成的工作,范浩奇是核心作者之一,负责大规模实验验证与系统落地,与Feichtenhofer、何恺明等人深度协作完成了这一工作。2019年,SlowFast被ICCV接收为Oral论文,成为视频理解领域的标杆工作之一。范浩奇通过这个项目证明了,他能把顶级的想法变成顶级的执行。

同期,他主导开发了PySlowFast代码库,这个开源工具后来成为全球视频理解研究者的标准工具箱,在GitHub上获得高星。2019年6月,他带领团队在AVA视频活动检测挑战赛中获得第一名。同年11月,他开始在ICCV合办视觉识别教程,随后又在CVPR 2020和ECCV 2020延续了这一工作——在学术界,教程组织者通常是领域内公认的专家才被邀请担任的角色。在三十岁之前,范浩奇已经是视频理解领域被同行认可的重要人物。

但真正让他从实验室的年轻人中站出来的,是2020年的MoCo。在2019年底,计算机视觉领域的主流观点仍然是:没有标签的视觉模型不可能达到监督学习的水平。但何恺明认为:可以用动量对比的方式构建一个动态字典,让模型从大量无标签数据中学习有用的视觉表征。在MoCo的研发过程中,范浩奇承担了核心的系统实现与实验验证工作,与何恺明紧密协作——这也是两人长期合作模式的起点。

2020年6月,MoCo被CVPR接收为Oral论文,获得最佳论文提名。消息公布后,整个自监督学习领域开始快速转向——研究者们突然意识到,无监督学习确实可以做到和监督学习接近甚至更好的效果。MoCo的代码被开源,成为该领域使用最广泛的基准工作之一。范浩奇的谷歌学术在2020年迎来了第一次陡峭的攀升,年度引用从上一年的224跃升到1120。

MoCo之后,范浩奇与何恺明的合作就保持了长期且稳定的关系。2020年的MoCo v2,2022年的MAE-ST……在FAIR的华人研究员群体中,范浩奇是少数几个能与何恺明持续合作多篇重磅论文的年轻人。他们的工作模式是:何恺明擅长提出概念性和方向性的想法,范浩奇擅长把这些想法快速落地为实验结果,并用实验反馈来修正和优化原始思路。这是一个高效的闭环。

在FAIR的七年里,范浩奇从何恺明和其他资深研究员身上学到的最重要的东西,可能不是具体的技术,而是一种判断力——什么样的问题是真正值得花时间去解决的,什么样的方向在长期来看更重要。这种判断力,后来成为他在每一次范式转移前都能提前转身的核心支撑。

在热点转移之前提前出发

“如果你在一个研究领域中停留太久,你很可能会在下一个浪潮到来时丧失竞争力。与其被动地被技术演进淘汰,不如主动淘汰自己已有的存量优势。”这似乎是范浩明一以贯之的判断逻辑。而这个逻辑在2023年得到了验证。

2020年到2022年,计算机视觉领域经历了剧烈的范式转移。CNN的统治地位开始松动,Transformer从自然语言处理“跨界”到视觉领域,自监督学习从边缘走向主流,多模态模型开始展现出超越纯视觉模型的能力。很多在CNN时代积累了丰富经验的研究者在这波浪潮中措手不及,因为过去赖以成名的工具和框架突然变得不再适用。

范浩奇的应对方式是:在每一个拐点到来之前,主动换道。2021年,他参与了多尺度视觉Transformer的研究。当时Vision Transformer刚刚出现,大多数研究者还在摸索如何将Transformer有效地应用到视觉任务上。而范浩奇已经开始针对视频数据的时空特性设计多尺度的Transformer结构,让模型能够同时捕捉精细的空间细节和长程的时间依赖。

2022年,他与何恺明再次联手,将掩码自编码器从图像扩展到视频时空域,提出了MAE-ST。何恺明的MAE在图像领域已经证明了掩码策略的有效性,但如何将其迁移到视频——这个具有时间维度的数据形态——是一个关键的技术难题。同一年,他还参与了FLIP的研究,开始涉足视觉与语言结合的方向。这个转向在当时看来并不显眼,但它标志着范浩奇的研究边界正在从“让机器看懂图像”拓展到“让机器同时理解图像和语言”。这个转向为他日后进入多模态领域积累了方法论基础。

这三项工作放在一起看,可以捕捉到范浩奇身上一个不太被提及的特质:他愿意主动放弃已有的优势。MoCo已经让他站在了自监督学习的前沿,如果愿意,他完全可以在那个方向上持续深耕,每年稳定产出,积累更高的引用量。但他没有这么做。他先后从自监督转向了Transformer架构,又从纯视觉转向了视觉-语言结合。每一次转向都意味着离开熟悉的领域,进入一个需要重新学习、重新证明自己的新战场。

Hugging Face第一的背后

2023年末,范浩奇选择离开meta FAIR,加入字节跳动Seed团队。从外部看,这是一个放弃了很多确定性的决定。

彼时的他,参与的多项工作已经成为计算机视觉领域的标杆——自监督学习的MoCo、视频理解的SlowFast、时空掩码自编码器MAE-ST。留下来的剧本清晰可见:升职,带更大的团队,安稳地成为这个领域的权威。

彼时,DeepSeek、月之暗面已经凭借语言模型完成了第一轮声量积累;字节的Seed团队却成立还不到一年,视觉基础模型方向还在从零搭建。

加入字节后,范浩奇启动了一个名为BAGEL的项目。当时的开源多模态模型有一个普遍问题:要么只做理解,要么只做生成,很少有把两者统一起来且效果足够好的。于是,范浩奇团队希望做一款统一的、开源的多模态理解和生成模型。他们采取了一个相对激进的策略——大规模收集和清洗交错多模态数据,然后把数据喂给模型,赌的是数据规模本身能带来质变。

这个策略执行了将近一年。2025年5月,BAGEL正式发布。结果超出预期:发布后不到24小时,在Hugging Face趋势榜上登顶第一。在多模态理解的标准测试中,BAGEL超过了当时同样备受关注的Qwen2.5-VL。

但让团队最兴奋的不是榜单排名,而是一个没有预设过的发现。在BAGEL的技术报告中写道:"令我们最惊讶的是,当交错多模态数据的规模扩大到一定程度时,模型涌现出了推理能力。"团队在设计BAGEL时没有专门针对推理能力做过优化,他们只是不断增大数据规模,然后发现模型开始能够回答需要多步推理的复杂问题了。这并不是固有的设计,而是大量数据堆出来的突然涌现。范浩奇本人在推特上提到这个发现时用了一个词——"surprised"。

数千万元的赌注

2026年初,字节跳动Seed团队把新成立的世界模型研究组交给了范浩奇。他研究3D仿真路线,主攻娱乐和游戏场景;字节的另一团队李航和王文千走VLA路线,主攻具身智能。他们的目标是一致的——让AI从只能生成文字和图片,进化到能理解物理世界的运行逻辑。

这个方向在学术界被称为"世界模型",核心是让AI学会理解物理世界中的因果关系、空间关系和时间演化规律。2025年8月,Google DeepMind发布了Genie 3,成为全球在这个方向上表现最突出的模型。字节为范浩奇设置了极有挑战性的目标:2026年底之前,拿出性能对标Genie 3的产品。

字节为这个目标配置的资源令人侧目。据行业媒体报道,训练数据预算高达数千万元,是其他厂商的三到四倍。在招聘方面,字节向DeepSeek、OpenAI、DeepMind、meta的研究员发起定向挖猎,范浩奇团队开出的薪酬比市场平均水平高出30%到50%,研究员的年薪范围在180万到250万之间。字节愿意下这个注,是因为他们判断世界模型可能是继大语言模型之后AI行业最重要的战场,谁能先做出足够好的世界模型,谁就有可能在下一代技术范式中占据主动。

从被任命到年底,不到十二个月。范浩奇的团队需要在这段时间里拿出对标Google最强模型的产品。这个目标能不能实现,现在还没有答案。数据标注团队50人在春节期间没有休息,在为这个目标竭尽全力地努力着。但在整个中国AI行业里,能被委以这样的责任、拿到这样的资源、被寄予这样的期望的人,委实不算多。

从第一人称视频到世界模型,范浩奇的研究对象从“人在做什么”变成了“物理世界如何运行”。虽然他从未解释过为什么总是选择这些边界模糊的问题来研究,但事后回看,他的每一次转向,方向都对了。而这一次的结果,会在2026年底给出他的答卷。

更多热门内容
WPS背刺6.78亿用户 章庆元挖的坑雷军知道吗?
国产办公软件走到今天,WPS 是绕不开的标杆。它靠着免费门槛拿下海量用户,稳稳守住国内办公软件半壁江山。但六月下旬,大量用户集中吐槽两个核心问题,直接把品牌口碑拉到低点。软件后台持续往 C 盘写入缓存备份文件,动辄占用几十 GB 空间,电脑系统盘频繁爆满卡顿。

2026-06-29

华为鸿蒙Harmony OS装机量突破7000万台
第三方统计平台奇妙工具箱最新监测数据显示,华为鸿蒙HarmonyOS国内智能手机装机量已正式突破7000万台,目前实时统计数据达到7010.18万台。这意味着鸿蒙距离智能手机装机量突破1亿台的目标又迈出了关键一步。据了解,在6月12日举行的华为开发者大会(HDC 2026)上,华为常

2026-06-29