理想汽车创始人李想近期分享了公司在自动驾驶领域的最新进展,特别是关于VLA(视觉语言行动模型)的应用。他形象地比喻,VLA对于理想汽车而言,就像是一个活生生的“司机大模型”,其运作方式正日益接近人类司机的思维与操作模式。
李想透露,理想汽车在智能驾驶技术的探索之路上,已经历了三个关键阶段。首个阶段始于2021年,当时主要依赖于机器学习来感知环境,并结合后端的一系列规则算法来完成诸如规划、控制及执行等任务。这一阶段的技术发展是分步骤、模块化的,虽然有效,但距离“类人”的智能驾驶仍有较大差距。
紧接着,第二个阶段在2023年启动研究,并于2024年正式推出了“端到端”系统。这一阶段的重大突破在于,系统不再仅仅依赖单个模块的独立判断,而是将整个驾驶过程整合得更加连贯和统一,从而能够更高效地应对复杂路况,展现出更加自然的驾驶行为。
目前,理想汽车正全力推进第三阶段的发展,即VLA模型的应用。这一模型标志着智能驾驶技术迈入了一个崭新的高度。与以往的技术相比,VLA不仅仅停留在图像识别的层面,而是能够像人类一样,通过3D视觉与2D图像的结合,来“理解”真实世界的物理结构。它不仅能够“看到”道路和车辆周围的情况,还能“理解”导航软件的运行逻辑,这是传统的视觉语言模型VLM所无法比拟的。VLM只能识别图片内容,而无法真正理解场景背后的深层逻辑。
VLA模型的核心优势在于其拥有类似人类的“大脑系统”。它不仅能够观察外部环境,还能理解和推理出正在发生的事情。VLA具备自己的“语言”和“思维链”,能够进行多步骤的推理,从而做出更加符合实际情境的决策。这种能力使得VLA在面对突发情况或复杂路况时,能够像经验丰富的老司机一样迅速反应,并采取恰当的操作。