ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

再谈具身智能汽车,理想的技术杀手锏到底是什么?

时间:2026-06-18 19:12:16来源:凤凰网科技编辑:快讯

摘要:

理想汽车从“车企”向“具身智能公司”转型过程中,最核心也最冒险的三张底牌:自研芯片马赫M100、基座大模型马赫Mind系列,以及自动驾驶VLA架构。

凤凰网科技 出品

作者|于浩

编辑|董雨晴

2026年6月15日,理想汽车Livis Day软件与具身智能发布会现场,CEO李想抛出了一个让市场既兴奋又紧张的定义:具身智能汽车是“四位一体”的结合体——一辆电动车、一位职业司机、一台AI计算机、一位生活助手。电动车和AI计算机是“具身”,职业司机和生活助手是“智能”。

第二天,理想汽车CTO谢炎和基座模型负责人詹锟接受了专访。这场持续数小时的对话,揭开了理想汽车从“车企”向“具身智能公司”转型过程中,最核心也最冒险的三张底牌:自研芯片马赫M100、基座大模型马赫Mind系列,以及自动驾驶VLA架构。

图|理想汽车CTO 谢炎

“你跟博尔特跑同一条赛道,不可能赢”

四年前,当理想汽车决定自研芯片时,行业内多数人持观望态度。彼时英伟达Orin已是主流智驾芯片的事实标准,一家成立不过数年的车企要挑战芯片巨头,听上去像是天方夜谭。

谢炎给出的逻辑很清晰。“如果自研做不到比外购更好,就没有意义。最初目标是达到Orin的4倍性能,同时成本更低。”这个目标不是随意设定的,团队花了约半年时间做分析。

但真正关键的不是目标,而是路径。“要超越英伟达,沿用其技术路线根本不可能——他们比我们早起步几十年,积累更深,资源多几个数量级。”谢炎打了一个比方:“就像在百米赛道上,博尔特已经先跑了两秒,你不可能用同一条路线赢他。唯一的机会是另辟蹊径。”

这条路,叫数据流架构。

谢炎在研究生阶段的导师高光荣教授是数据流架构方向的奠基人之一,该思想在六十年代开始提出,但在通用计算时代并未成功。理想团队从AI计算的第一性原理出发,传统计算依赖于人类编程的“翻译”中介,这降低了效率。如果回归计算本质,可以去掉中间翻译,构建一套基于数据流的架构。

这套思想在全球实践极少。中国几乎没有大规模商业化项目;美国有Groq、Cerebras等公司,思路相近但不完全相同。理想在四年前认定这条路径可行,2022年11月正式立项,2024年流片,2025年回片验证,2026年上车,全程耗时三年半。

2026年5月,马赫M100实现量产上车,成为全球首款量产的动态数据流AI芯片。采用5nm车规级工艺,单芯片算力1280TOPS,实际运行效率超过82%。对比行业主流方案——英伟达Orin-X单芯254TOPS,马赫M100的算力密度显著更高。搭载双马赫M100芯片的全新理想L9 Livis,整机总算力达2560TOPS。

谢炎透露了一个关键细节:芯片设计不是硬件团队的独角戏。“算法、软件、模型四个团队坐在一起,软件工程师也有机会直接对硬件提出需求。”这种“篝火会议式”协作机制,正在理想内部越来越多的项目中推广。

“除了特斯拉FSD,国内没有智驾第一梯队”

“除了特斯拉FSD,国内没有智驾第一梯队”,行业里一直有这样的声音。

当被问及国内智驾第一梯队的差距为何没有拉大时,詹锟告诉我们:“第一梯队的差距其实在缩小,但是跟特斯拉的差距没有缩小。”

图|理想汽车基座模型负责人 詹锟

理想的追赶计划清晰而激进:2026年第三季度,Orin、Thor平台的AD Max用户将推送全新马赫VLA版本;第四季度,整体智驾能力全面对标特斯拉FSD V14。

底气来自哪里?这一代马赫VLA相较之前,模仿学习规模提升50%、强化学习规模提升15倍、模型参数量提升10倍、模型计算量提升15倍。马赫VLA 2.0系统多模态计算量较前代提升十倍,集成3D ViT感知模型,融合激光雷达与视觉信息,可视距离提升50%。

但詹锟强调,硬件只是基础。“建立护城河必须全栈自研——算力、芯片、基础设施全部可控,并且在数据清洗、评测体系等'苦功夫'上做到极致。”

关于自动驾驶模型中语言部分的作用,詹锟给出了技术层面的拆解:长期来看,所有主流自动驾驶架构都会走向VLA与World Model的整合。语言一定存在,无论是VLA中的指令理解,还是World Model的prompt,都离不开语言。但更关键的问题是:马赫VLA是以语言为基础还是以视觉为基础?

“机器智能(尤其是自动驾驶)应以视觉为基础,因为3D空间感知、环境理解是核心;语言用于推理、决策、交通规则理解,是重要的中间监督项。”长远来看,谷歌等研究已出现原生多模态的趋势,但这仍是未来方向。

基座模型为什么不能拿来主义?

发布会当天,理想发布了全新自研基座大模型,包括马赫Mind-Pro和马赫Mind-Edge。马赫Mind-Pro在指令跟随、长文本理解、高阶数学推理、工具调用等权威基准中均居行业第一梯队,Agent综合性能超越多数主流模型。

但一个核心问题摆在面前:基座模型会成为汽车公司的必备能力吗?是否会像手机行业那样,最终收敛到统一生态?

詹锟的回答斩钉截铁:“对于走具身智能和AI方向的汽车公司,基座模型是必争之地。各公司环境任务不同,基座需求各异,大概率需要自建。”

他进一步解释:“云端可能有统一强大基模,但上车时必须裁剪、适配芯片,参数量需完全匹配。外部开源预训练模型可作参考,但仍需强力后训练。”

谢炎从算力角度补充:“算力和软件基础设施应独立,角色使用算力时是独占的。”

这意味着,理想的战略不是“拿来主义”,而是从芯片到模型的全栈自研——马赫M100跑马赫Mind,马赫Mind支撑马赫VLA,三者形成闭环。

舱驾融合是一个被高估的概念?

在行业热议“舱驾融合”的当下,谢炎给出了一个略带反共识的判断。

“舱和驾本质上是两个独立系统。往L3/L4发展,智驾需要确定性、专属的内存和计算资源,此时'融合'意义不大。”

如果只是把两颗芯片封装在一起,资源仍是两份,只省了一次封装成本,对高端产品价值有限。真正的融合应是动态共享资源,但当下操作系统层面做不到舱驾实时切换。

“低端L2对实时性要求不高,有一定共享空间,但省不了太多成本。我更看好将多颗芯片紧密集成在同一块板子上,而非强行做成单芯片。”

这个判断直接回应了为何英伟达、蔚来、理想等大算力芯片方案都没有做芯片级舱驾融合,反而是高通在低算力8650上做了尝试,路径选择取决于对高端智驾的判断。

从车企到具身智能公司实现估值逻辑切换

当理想不再以“车企”自居,而是定位“具身智能”公司时,资本市场面临一个根本性问题:估值逻辑如何切换?

从汽车销量的PE/PB估值,切换到“硬件+软件”的双轮驱动,乃至对标SaaS类估值——这条路尚无成功先例。

谢炎和詹锟给出的答案指向三个层面:

第一,技术壁垒。

从芯片数据流架构到VLA模型,从编译器到操作系统,理想的护城河不是单一技术点,而是芯片、模型、操作系统等的垂直整合闭环。

第二,成本优势。

自研芯片带来的BOM成本下降,将在规模化后显现。

第三,场景扩展。

詹锟将物理机器人分为三个关键任务:具身交互、移动、操作。汽车天然覆盖了这三者——座舱内交互、自动驾驶移动、以及未来可能的操作能力。“汽车基座模型具备向具身智能扩展的潜力。”

但挑战同样巨大。从第一天量产算力达标的方案,到真正打磨出让用户“离不开”的体验,中间横亘着数据闭环效率、算力底座支撑、模型算法突破三重关卡。

终局是一场关于“定义权”的战争

在这场采访中,一个关于“类比”的提问让两位技术负责人发出了不一样的回应。

谢炎表示:“类比是帮助理解的工具,前提是理解足够深才能做出恰当的类比。我们并非只会类比,理想每年发表几十篇顶会论文,从模型到系统到芯片,讲得非常清楚。”

詹锟补充了一个数据:团队从2022年至今已发表近200篇论文或技术报告。“类比只是深入浅出的沟通方式,内部真正的工程思考远不止于此。”

这或许揭示了理想此次战略转型的本质:这不是一场关于销量的战争,而是一场关于“智能”定义权的战争。

当李想说出“当下的智能手机与智能汽车都算不上真正意义上的智能产品”时,他实际上在重新划一条线——线的一边是功能驱动的传统产品,另一边是具备自主生命属性的具身智能体。

马赫M100、马赫Mind、马赫VLA,这三个名字共同指向一个目标:让汽车从一个被动的交通工具,进化为一个能独立完成任务的智能体。

这条路能否走通,取决于三个未知数:数据流芯片的量产稳定性、VLA对FSD的追赶速度、以及资本市场对“具身智能”估值模型的接受程度。

但有一点可以确定,当谢炎说出“你跟博尔特跑同一条赛道不可能赢”时,理想已经选择了另一条赛道。那条赛道没有博尔特,但也没有路标。

更多热门内容