近年来,全球自动驾驶产业进入高速发展期。谷歌旗下Waymo在美国多个城市加速部署无人驾驶出租车,运营规模持续扩大;国内市场中,百度Apollo也交出亮眼成绩单,推动无人车从实验室走向商业化。
尽管无人车在街头愈发常见,但行业技术路线之争却从未停歇。从传感器选择到算法架构,再到AI决策模式,不同流派的分歧正深刻影响着自动驾驶的未来走向。截至2025年5月,Waymo在美国旧金山、洛杉矶等城市已投入1500辆自动驾驶出租车,每周付费行程超25万次;百度Apollo则在全球部署超1000辆无人车,累计完成1100余万次出行订单,安全行驶里程突破1.7亿公里。然而,这些数据背后,技术争议仍在持续。
在感知层面,行业分为“纯视觉”与“多传感器融合”两大阵营。特斯拉主张“纯视觉”路线,认为8个摄像头即可模拟人类视野,通过算法从2D图像还原3D环境,成本低且易于量产。但这一方案在逆光、雨雾等极端天气下表现欠佳。相比之下,Waymo等企业坚持“多传感器融合”,通过激光雷达、摄像头等构建感知网络,尽管早期激光雷达成本高达7.5万美元,但其3D建模精度能清晰捕捉行人动作、路面障碍等细节,成为高级别自动驾驶的核心依赖。
传感器内部的争论同样激烈。激光雷达虽精度卓越,但雨雪天气下感知能力大幅下降;4D毫米波雷达虽不受天气影响,但分辨率低,多作为辅助传感器。目前,豪华车与无人出租车倾向于多装激光雷达,经济型车辆则采用“激光雷达+摄像头”的组合方案,平衡成本与性能。
算法架构层面,“模块化”与“端到端”模型的对立尤为显著。传统模块化设计将驾驶任务拆分为感知、预测、规划、控制等环节,虽易于调试,但信息传递中的误差累积导致整体性能受限。特斯拉FSDV12引入的端到端模型则模仿人类学习方式,通过海量真实行车数据直接建立路况与驾驶动作的映射,理论上能逼近人类驾驶流畅度。然而,其“黑箱”特性导致事故原因难以追溯,成为安全监管的痛点。为此,行业提出“显式端到端”方案,保留部分中间数据,试图在性能与可解释性间寻找平衡。
在AI决策层面,VLM(视觉语言模型)与VLA(视觉语言动作模型)的分歧进一步凸显。Waymo等主流企业采用VLM,让AI负责环境理解与推理,最终决策权交由传统模块,确保过程可控。例如,当识别到“被风吹的塑料袋”时,规划模块会决定“缓刹通过”,责任划分清晰。而特斯拉、吉利等企业探索的VLA则试图让AI直接学习所有驾驶技巧,通过海量数据训练实现“端到端”决策。但这一方案面临更严重的“黑箱”问题,且训练数据成本高昂——需同步8个摄像头的视频与驾驶操作,而VLM可先用互联网图像-文本数据预训练,再通过行车数据微调,成本大幅降低。
尽管流派分歧显著,但技术融合已成为趋势。激光雷达与视觉传感器正走向多模态感知,模块化算法吸收端到端优势,大模型则为系统注入更高智慧。那些曾被视为无解的技术难题,正通过争议与碰撞推动行业向前。无论路线如何选择,最终目标始终是“安全且经济”——唯有让技术真正服务于大众,自动驾驶才能从实验室走向千家万户。