具身智能,跟造车到底有什么关系?这是理想汽车CEO李想在Livis Day上自己抛出的问题。
过去一年,“具身智能”这个词被反复提起,但一家造车公司,为什么也要凑这个热闹?
李想的回答很直接:今天的传统智能汽车,并不是真的智能。
如果你用过任何一辆号称“智能”的电动车,你会明白他在说什么。那些车本质上是“功能驱动”——自动泊车是一个功能,高速领航是一个功能,语音打开车窗是一个功能。它们是被动调用的工具,不是有自主意识的个体。遇到系统没见过的场景,你必须接管;它的反应比你慢,它的判断比你弱。
这算什么智能?
所以理想汽车给出了一套完整的定义:真正的具身智能汽车,是一辆能够保护人类安全、独立完成任务、比人类更高效的汽车。
而造车,恰好是具身智能最合理、也最迫切的落地场景。
为什么是车?车就是最好的“身体”
具身智能的核心,是智能体必须有一个物理身体,能够在真实世界里感知、行动、交互。而汽车,是人类社会中规模最大、最复杂、最需要智能体能力的物理设备之一。
更重要的是,车每天都在参与人的生活。上班、旅行、接送家人——车是最亲密的出行伙伴。如果能让这辆车真正“智能”起来,不是弹出一个菜单,而是像一个职业司机那样替你开车,像一个生活助手那样帮你处理事务,那才是具身智能真正的价值。
理想汽车把这一定义拆解成了四个角色:电动车、职业司机、AI计算机、生活助手。四个角色集于一身,才是具身智能汽车。
这不是功能的堆砌,而是角色的融合。当你坐进这样一辆车,你不需要“操作”它,你只需要“告诉”它。它会自己思考、自己行动、自己学习。
大脑怎么造?语言智能+机器智能,缺一不可
如果说车是身体,那什么才是大脑?
人脑从来不是单一中枢统管一切,它依靠四个独立功能区并行运转。理想汽车在设计具身智能大脑时,也采用了类似的分体式架构:语言智能负责理解指令、推演行动方案,机器智能负责三维视觉感知与躯体动作控制。
语言智能:两个“马赫”,各司其职
在语言智能方面,理想汽车推出了两个模型:马赫Mind-Pro和马赫Mind-Edge。
马赫Mind-Pro是一个云端Agent大模型。它采用了无损Token压缩技术,整体Token平均消耗降低38%,任务完成率和推理准确率零衰减。它的TPS(每秒Token生成量)峰值达到208 token/s,是主流Agent模型推理效率的两倍以上。
马赫Mind-Edge则是端侧原生具身智能体。它基于车载芯片和车辆硬件原生设计,采用多模态流式时序建模,具备全天候主动感知、人车交互、自主控车能力,而且全部在车端本地完成——低延迟、高可靠、数据不上传。它就像一个时刻在车里的私人助理,不需要联网也能实时照看你的家人。
机器智能:从“看见”到“看懂”
机器智能的核心,是今年5月随全新理想L9首发的马赫VLA。
它不是传统的模块化辅助驾驶。传统架构中,感知、预测、规划三个模块各做各的,效率低、结果错。而马赫VLA是一个原生多模态MoE大模型——让看见、理解、思考和行动从一开始就在同一个框架里彻底对齐。
最直观的变化是:3D ViT行业首次上车。以前智能驾驶系统只能处理2D图像,现在它能实时构建每个人在三维空间里的精确位置、姿态和动作。系统不再是“看见”物理世界,而是“看懂”物理世界。
数据也能说明问题。马赫VLA背后,算力、数据、模型规模同时跃升:算力方面,双马赫M100提供2560TOPS算力;模仿学习数据量增加50%,强化学习数据量增加15倍;行泊一体模型参数量增加10倍,TPS增大15倍。
至于效果方面,截至2026年6月14日,理想全系车型智能辅助驾驶系统主动避险累计超过1727万次,重大避险达55671次。马赫VLA的综合反应速度达到0.28秒,比普通人类驾驶员0.45秒的平均反应速度快约40%,接近顶级F1车手0.25秒的人类生理极限。在120km/h的速度下,这0.17秒的差距意味着提前6米完成刹停。
这种反应速度不是靠堆硬件堆出来的。理想汽车对全链路进行了深度重构:视觉输入时延优化47%,模型推理链路缩短43%,线控底盘响应时延降低38%,操作系统调度编排时延降低28%。最终实现端到端时延优化40%。
更值得关注的是能力涌现。马赫VLA已经可以实现自主倒车让路、识别交警手势、应对低矮不规则障碍物、穿越无车道线的雨夜窄路——这些场景靠传统规则逻辑几乎不可能实现,但它在大规模模仿学习和强化学习的混合训练下,自己学会了。
自研芯片马赫M100:不是为了造芯片而造芯片
马赫VLA能实现0.28秒的反应速度,靠的不只是算法,还有一个关键基础:一颗为AI而生的芯片。通用计算时代,冯·诺依曼架构(指令驱动计算)统治了七十年。但AI计算天然是数据驱动的——数据并行流动,计算随数据而动。用旧架构硬跑AI模型,效率低、浪费大。
理想汽车从2022年立项,历经三年半,设计了一种全新的数据流架构芯片——马赫M100,全球首款量产的动态数据流AI芯片。它让数据的流动驱动计算的发生,架构围绕AI的计算形态来设计。参数上:5纳米车规级工艺,单芯片算力1280TOPS,是目前全球量产性能最强的车规级推理芯片。更重要的是,因为数据流架构,它的实际运行效率超过82%——很多标称算力很高的芯片,实际效率往往只有一半。
马赫M100的能力远不止于辅助驾驶。今天它已经跑通车上所有智能化场景:运行大语言模型、支撑Agent、驱动具身智能。运行35B参数大语言模型时,prefill速度达到顶尖桌面级AI超级计算机的2.7倍。
基于马赫M100,理想汽车构建了完整的具身智能系统:芯片是“心脏”,感知系统是“眼睛”,马赫模型是“大脑”,线控底盘和能源系统是“手脚”,星环OS是“神经系统”,实现“感知-决策-执行”全链路融合。
写在最后
今年,理想汽车的OTA有三个重要节点;
7月:辅助驾驶的整体效率提升30%,以及利用主动悬架的便捷换胎能力和地图出行Agent。
9月:学习人类的能力,独立处理复杂场景,包括全场景自主倒车、路面学习能力。Agent可以连接你的电脑和手机,CarPlay及其他手车互联功能将一同上线。
12月:让Livis的安全和效率,超越人类,实现反应速度比人快56%。同时还将实现舱外识别切换账号,识别交警手势等能力。
回到那个问题:具身智能,跟造车到底有什么关系?
造车,是具身智能最理想的落地场景。因为车是人类社会中最复杂、最普遍、最需要智能体能力的物理平台。而具身智能,是让这辆车从“功能驱动”进化为“自主智能体”的唯一路径。
过去十年,理想汽车创造了一个移动的家——大空间、多屏幕、舒适的座椅、智能座舱。下一个十年,他们要做的,是给这个家赋予生命。
正如李想在发布会结尾说:“这就是我们这家公司存在的意义,也希望可以和所有人一起见证这个全新的时代。”