智能驾驶领域的竞争态势正悄然发生深刻变革。以往,各厂商主要围绕视觉-语言模型(VLM)与视觉-语言-动作模型(VLA)、一段式与两段式方案、有无地图辅助等维度展开角逐。然而,自今年起,智驾领域的竞争已深入到更为核心的领域——算力集群与算法架构的较量。
在这场竞争中,无论是智能驾驶、大型AI模型,还是具身智能,其焦点已从追求快速预训练响应转向强调慢速深度推理。AI不再仅仅满足于快速的模式匹配,而是致力于深入思考,解决更为复杂的问题。这一转变,被视为AI突破智能瓶颈的关键时刻。
“推理”被视为人工智能发展的下半场,这一趋势并非偶然。OpenAI的联合创始人伊利亚·苏茨克维尔在NeurIPS大会上明确指出,AI的预训练时代已接近尾声。随着数据资源增长放缓,而计算能力持续攀升,如何高效利用现有数据,提升推理效率,成为新的挑战。
推理,这一源自逻辑学的术语,指的是系统根据已知前提,通过规则产生新结论或决策的能力。它反映了AI在模拟人类思维方面的进步。AI的运行过程,与人类和逻辑系统“从已知信息得出未知结论”的过程相似,强调模型利用训练获得的知识,在不确定的输入情况下生成合理输出。
与传统的数据处理和模式识别相比,推理要求系统不仅能识别模式,还能理解其背后的原因和逻辑。这是机器学习技术漫长演进过程中的重要一步,标志着人工智能向“顿悟”迈进。例如,学生在学习过程中,通过课堂学习和作业反馈掌握知识,考试时则需利用这些知识分析解答新题目,这一过程便类似于AI的推理。
在AI的下半场,推理之所以变得尤为重要,是因为随着应用场景的复杂化和多样化,简单的数据处理和分类已无法满足需求。在智能驾驶领域,系统需识别行人、车辆和交通信号,还需理解它们之间的交互关系,预测未来行为,并据此做出安全、合理的驾驶决策,这离不开强大的推理能力。
训练与推理,作为AI技术应用的两大基石,共同决定着AI的智能化水平。训练阶段,AI模型通过大量数据和算法学会识别和生成规律,调整参数以最小化预测与实际值之间的误差。而推理阶段,则建立在训练完成的基础上,将模型应用于新数据,进行预测、分类或生成新内容。
今年,汽车行业的智能驾驶竞争尤为激烈。比亚迪、吉利、奇瑞等主流车企纷纷推出智能驾驶计划,标志着“得智驾者得天下”的时代已经到来。随着BEV、端到端技术浪潮的兴起,车企正逐步将AI神经网络融入感知、规划、控制等环节,提升智驾能力。
在此过程中,VLA模型作为融合了视觉、语言和动作的多模态大模型范式,正成为智能驾驶领域的重要一环。VLA模型具备更高的场景推理能力与泛化能力,对智驾技术的演进具有重要意义。理想汽车发布的MindVLA自动驾驶架构,便是通过整合空间智能、语言智能和行为智能,赋予自动驾驶系统3D空间理解能力、逻辑推理能力和行为生成能力。
VLA模型的发展,源于VLM模型的基础。VLM能够处理图像和自然语言文本,将图片作为输入,生成表示自然语言的标记。而VLA则进一步利用机器人或汽车运动轨迹的数据,训练现有VLM,以输出可用于控制的动作序列。通过这种方式,VLA能够解释复杂指令,并在物理世界中执行相应动作。
然而,VLA的落地并非易事。它要求车企具备强大的模型框架定义能力和快速迭代能力,同时面临数据与信息深度融合、数据闭环、真实数据与实时响应等多重挑战。谁能更早解决这些问题,谁就能在数据为王的时代占得先机。
尽管面临诸多挑战,但VLA模型的优势仍不容忽视。它与现有大语言模型范式兼容,具备全局上下文理解与类人推理能力,能够像人类驾驶员一样面对复杂交通场景进行思考和判断。同时,VLA的跨领域通用性也展现出其在汽车领域以外的潜力,未来有望应用于更广泛的智能设备。
随着技术的不断进步和竞争的加剧,智能驾驶领域正迎来新一轮洗牌。对于在技术和数据方面具有双重优势的车企而言,这将是一个巩固市场地位、实现转型升级的重要机遇。而对于未及时跟进的车企,则可能面临更加严峻的挑战。在这场“三重博弈”中,唯有“卷对方向”的玩家,才有可能笑到最后。