巴西研究新突破：无标注自监督学习，让AI轻松破解停车找位难题-数码极客-ITBear科技资讯

每天清晨，城市停车场里上演着熟悉的场景：车辆缓缓绕行，驾驶员紧盯每个角落，试图找到一个空位。这种看似平常的困扰，放大到城市规模后，却成为交通拥堵和碳排放的重要推手。研究表明，驾驶员寻找停车位的时间不仅加剧了道路压力，还导致额外的燃油消耗。随着城市扩张和人口密度上升，这一问题的紧迫性日益凸显。

解决思路看似简单：在停车场安装摄像头，通过计算机视觉技术实时判断车位状态，并将信息传递给驾驶员或管理平台。这种"基于视觉的停车位识别"技术，本质上是让机器理解停车场图像。尽管近年来该领域取得进展，但一个关键障碍始终存在——模型训练依赖大量人工标注数据。传统方法需要人工逐张标注停车场照片，标记每个车位是否被占用。对于拥有数百车位的停车场而言，这项工作不仅耗时，而且模型在新环境中的表现往往大打折扣，因为不同停车场的光线、角度和车辆分布差异显著。

巴西研究团队提出了一种创新方案：无需任何人工标注，即可让模型在新停车场实现高精度识别。这一突破基于自监督学习技术，其核心思想是让模型从无标注数据中自动学习视觉特征。研究团队采用的方法名为SimCLR，通过对比学习框架训练模型。具体而言，模型接收同一张图片的不同处理版本，例如调整亮度或裁剪部分区域，然后学习识别这些版本是否源自同一张原图。这一过程迫使模型关注图片中最稳定的视觉元素，从而形成对车位状态的通用理解能力。

训练过程分为三个阶段。首先，模型在包含数百万张日常物品图片的ImageNet数据集上进行预训练，掌握基础视觉模式。其次，模型在来自多个停车场的无标注图片上继续训练，进一步适应停车场场景的特殊视觉特征。最后，模型使用少量通用停车场标注数据进行微调，学习将视觉特征映射到具体分类任务。这一流程的独特之处在于，目标停车场无需提供任何标注数据，模型即可通过前两个阶段积累的知识实现准确判断。

为验证方案有效性，研究团队在三个公开数据集上进行了测试。这些数据集覆盖不同天气条件、摄像头角度和光照环境，包括巴西两所大学采集的PKLot数据集、意大利国家研究委员会的CNRPark-EXT数据集，以及美国匹兹堡国际机场的PLds数据集。实验采用"留一法"评估，即模型在两个数据集上训练，在第三个完全未见过的数据集上测试。结果显示，该方案在跨数据集评估中达到97%以上的平均准确率，较传统方法提升超过5个百分点。在特定场景下，准确率甚至高达98.9%。

研究团队还设计了"两阶段部署策略"以优化实际应用效果。新停车场接入系统后，首先部署经过通用训练的模型，同时自动收集无标注图片。7天后，这些图片被用于训练专用模型，替代初始模型。这一策略使模型在保持通用能力的同时，进一步适应目标环境的特殊条件。实验表明，专用模型在目标停车场的表现优于通用模型，且无需人工标注干预。

当少量标注数据可用时，该方案的优势更加明显。研究测试了从32个到8192个标注样本的不同场景，发现专用模型在整个区间内始终领先其他方法。即使标注样本数量极少，专用模型也能保持较高准确率，而传统自监督方法在标注数据不足时表现显著下降。这一特性使方案在标注成本受限的实际场景中具有重要价值。

为评估系统实用性，研究团队在树莓派5微型计算机上测试了模型推理速度。结果显示，识别单个车位图片平均耗时0.23秒，100个车位的停车场可在23秒内完成全面扫描。这一速度满足周期性更新车位状态的需求，但研究团队承认，在资源更受限的设备上，推理速度仍有提升空间。训练成本方面，完整训练一次模型约需25个GPU小时，在配备高性能显卡的服务器上可接受，但对小型运营方可能构成挑战。

研究团队在论文中详细披露了训练参数和数据处理方法，包括优化器选择、学习率设置和数据增强策略。这些细节为其他研究者复现和改进方案提供了重要参考。该研究不仅为停车位识别提供了新思路，更展示了自监督学习在减少人工标注依赖方面的潜力。类似方法有望扩展至工厂质检、城市监控等其他需要大量标注的视觉任务领域。