李想揭秘：理想汽车VLA模型，如何让自动驾驶思考更“类人”？-智能汽车-ITBear科技资讯

理想汽车创始人李想近期分享了公司在自动驾驶领域的最新进展，特别是关于VLA（视觉语言行动模型）的应用。他形象地比喻，VLA对于理想汽车而言，就像是一个活生生的“司机大模型”，其运作方式正日益接近人类司机的思维与操作模式。

李想透露，理想汽车在智能驾驶技术的探索之路上，已经历了三个关键阶段。首个阶段始于2021年，当时主要依赖于机器学习来感知环境，并结合后端的一系列规则算法来完成诸如规划、控制及执行等任务。这一阶段的技术发展是分步骤、模块化的，虽然有效，但距离“类人”的智能驾驶仍有较大差距。

紧接着，第二个阶段在2023年启动研究，并于2024年正式推出了“端到端”系统。这一阶段的重大突破在于，系统不再仅仅依赖单个模块的独立判断，而是将整个驾驶过程整合得更加连贯和统一，从而能够更高效地应对复杂路况，展现出更加自然的驾驶行为。

目前，理想汽车正全力推进第三阶段的发展，即VLA模型的应用。这一模型标志着智能驾驶技术迈入了一个崭新的高度。与以往的技术相比，VLA不仅仅停留在图像识别的层面，而是能够像人类一样，通过3D视觉与2D图像的结合，来“理解”真实世界的物理结构。它不仅能够“看到”道路和车辆周围的情况，还能“理解”导航软件的运行逻辑，这是传统的视觉语言模型VLM所无法比拟的。VLM只能识别图片内容，而无法真正理解场景背后的深层逻辑。

VLA模型的核心优势在于其拥有类似人类的“大脑系统”。它不仅能够观察外部环境，还能理解和推理出正在发生的事情。VLA具备自己的“语言”和“思维链”，能够进行多步骤的推理，从而做出更加符合实际情境的决策。这种能力使得VLA在面对突发情况或复杂路况时，能够像经验丰富的老司机一样迅速反应，并采取恰当的操作。