在自动驾驶技术的探索征途中,理想汽车再次站在了聚光灯下。连续两年,同样的时间节点,同样的地点,理想汽车向业界抛出同一个问题:自动驾驶的最终形态究竟何许人也?
回溯至去年,爱范儿与董车会共赴理想北京的研发中心,与理想辅助驾驶团队进行深度交流。彼时,理想正酝酿着一场技术革新——“端到端+VLM视觉语言模型”即将上车。团队信心满满地表示,这一技术框架正是自动驾驶的“终极蓝图”。
时光流转,技术迭代,“端到端+VLM”已进化为VLA(Vision-Language-Action,视觉语言动作模型),标志着理想辅助驾驶能力正由“猿”向“人”的关键跨越。
今年,我们再次踏入理想的研发中心,与辅助驾驶团队共话新篇章。话题聚焦于:辅助驾驶领域的“猿”与“人”,究竟有何异同?
在“端到端+VLM”之前,理想采用的是业界主流的“感知—规划—控制”架构,它依赖工程师预设规则应对交通状况,但难以覆盖所有情形。这是辅助驾驶的“机械时代”,缺乏思考与学习能力。
“端到端+VLM”则象征着“猿时代”,虽具模仿学习能力,但仍显稚嫩,难以完全掌控车辆。其本质是模仿学习,依赖海量人类驾驶数据,但数据质量与数量直接决定性能。且出于安全考量,VLM模型仅提供决策建议,不直接控车。
而VLA模型,则标志着辅助驾驶步入“人类时代”,具备思考、沟通、记忆与自我提升的能力。从“猿”到“人”,虽理论上“端到端+VLM”可通过时间积累学会人类驾驶,但代价高昂。理想汽车自动驾驶研发高级副总裁郎咸朋坦言,随着数据量激增,模型性能提升速度逐渐放缓,遭遇瓶颈。
本质问题在于,“端到端”模仿学习缺乏深度逻辑思考,如同猴子驾车,知其然不知其所以然。VLM模型虽具更强理解与思考能力,但决策响应慢,与端到端模型耦合度低。
去年,理想辅助驾驶团队已预见两大趋势:一是模型规模扩大,端到端与VLM或将融合;二是借鉴多模态模型发展,实现原生多模态,涵盖语言、视觉、雷达等。这些趋势,如今已化为现实。
郎咸朋解释了从“端到端+VLM”转向VLA的原因:人工智能应具备人类般的思维与推理能力,解决未知场景。VLA模型,正是这一理念的实践。
VLA模型,Vision负责传感器信息输入,Language负责空间理解的翻译与编码,Action则根据编码生成行为策略。它打通了人与车的沟通桥梁,语言指令即可控车。同时,视觉与行为间无碍,处理速度大幅提升,解决了VLM响应慢、端到端不理解VLM决策的问题。
更显著的是,VLA模型具备思维链能力,推理频率达10Hz,较VLM快三倍多,能更快、更有理有据地进行推理,生成驾驶决策。它还拥有记忆与自主学习能力。
谈及VLA模型的训练,郎咸朋强调,需数据、算法、算力与工程能力四者兼备。理想汽车在数据方面有新突破:通过世界模型重建场景,举一反三生成相似场景,大幅降低测试成本,提升测试质量与研发效率。
在问答环节,郎咸朋表示,VLA模型当前阶段最优先优化的是安全性与舒适度,效率次之。针对VLA模型的难点,他指出,需建立在实车数据采集的基础上,且需强大算力支撑。对于大幅减少实车测试的依据,他认为仿真测试高效可靠,已替代大部分性能相关测试。
理想汽车自动驾驶高级算法专家詹锟补充,VLA不仅是工程创新,更是算法创新,旨在将具身智能思想引入自动驾驶领域。他承认VLA模型尚处初级阶段,需通过评测与仿真验证其量产可行性。
对于VLA是否已达“GPT时刻”,詹锟认为,在自动驾驶领域,VLA有机会实现这一标准,但需通过用户数据迭代、场景丰富与思维逻辑性提升逐步靠近。