每天清晨,城市停车场里上演着熟悉的场景:车辆缓缓绕行,驾驶员紧盯每个角落,试图找到一个空位。这种看似平常的困扰,放大到城市规模后,却成为交通拥堵和碳排放的重要推手。研究表明,驾驶员寻找停车位的时间不仅加剧了道路压力,还导致额外的燃油消耗。随着城市扩张和人口密度上升,这一问题的紧迫性日益凸显。
解决思路看似简单:在停车场安装摄像头,通过计算机视觉技术实时判断车位状态,并将信息传递给驾驶员或管理平台。这种"基于视觉的停车位识别"技术,本质上是让机器理解停车场图像。尽管近年来该领域取得进展,但一个关键障碍始终存在——模型训练依赖大量人工标注数据。传统方法需要人工逐张标注停车场照片,标记每个车位是否被占用。对于拥有数百车位的停车场而言,这项工作不仅耗时,而且模型在新环境中的表现往往大打折扣,因为不同停车场的光线、角度和车辆分布差异显著。
巴西研究团队提出了一种创新方案:无需任何人工标注,即可让模型在新停车场实现高精度识别。这一突破基于自监督学习技术,其核心思想是让模型从无标注数据中自动学习视觉特征。研究团队采用的方法名为SimCLR,通过对比学习框架训练模型。具体而言,模型接收同一张图片的不同处理版本,例如调整亮度或裁剪部分区域,然后学习识别这些版本是否源自同一张原图。这一过程迫使模型关注图片中最稳定的视觉元素,从而形成对车位状态的通用理解能力。
训练过程分为三个阶段。首先,模型在包含数百万张日常物品图片的ImageNet数据集上进行预训练,掌握基础视觉模式。其次,模型在来自多个停车场的无标注图片上继续训练,进一步适应停车场场景的特殊视觉特征。最后,模型使用少量通用停车场标注数据进行微调,学习将视觉特征映射到具体分类任务。这一流程的独特之处在于,目标停车场无需提供任何标注数据,模型即可通过前两个阶段积累的知识实现准确判断。
为验证方案有效性,研究团队在三个公开数据集上进行了测试。这些数据集覆盖不同天气条件、摄像头角度和光照环境,包括巴西两所大学采集的PKLot数据集、意大利国家研究委员会的CNRPark-EXT数据集,以及美国匹兹堡国际机场的PLds数据集。实验采用"留一法"评估,即模型在两个数据集上训练,在第三个完全未见过的数据集上测试。结果显示,该方案在跨数据集评估中达到97%以上的平均准确率,较传统方法提升超过5个百分点。在特定场景下,准确率甚至高达98.9%。
研究团队还设计了"两阶段部署策略"以优化实际应用效果。新停车场接入系统后,首先部署经过通用训练的模型,同时自动收集无标注图片。7天后,这些图片被用于训练专用模型,替代初始模型。这一策略使模型在保持通用能力的同时,进一步适应目标环境的特殊条件。实验表明,专用模型在目标停车场的表现优于通用模型,且无需人工标注干预。
当少量标注数据可用时,该方案的优势更加明显。研究测试了从32个到8192个标注样本的不同场景,发现专用模型在整个区间内始终领先其他方法。即使标注样本数量极少,专用模型也能保持较高准确率,而传统自监督方法在标注数据不足时表现显著下降。这一特性使方案在标注成本受限的实际场景中具有重要价值。
为评估系统实用性,研究团队在树莓派5微型计算机上测试了模型推理速度。结果显示,识别单个车位图片平均耗时0.23秒,100个车位的停车场可在23秒内完成全面扫描。这一速度满足周期性更新车位状态的需求,但研究团队承认,在资源更受限的设备上,推理速度仍有提升空间。训练成本方面,完整训练一次模型约需25个GPU小时,在配备高性能显卡的服务器上可接受,但对小型运营方可能构成挑战。
研究团队在论文中详细披露了训练参数和数据处理方法,包括优化器选择、学习率设置和数据增强策略。这些细节为其他研究者复现和改进方案提供了重要参考。该研究不仅为停车位识别提供了新思路,更展示了自监督学习在减少人工标注依赖方面的潜力。类似方法有望扩展至工厂质检、城市监控等其他需要大量标注的视觉任务领域。