近期,meta公司推出了全新的WebSSL系列视觉模型,这一系列模型的参数规模横跨3亿至70亿,专注于无语言监督的视觉自监督学习(SSL)领域。该系列模型的推出,标志着meta在探索视觉表征学习新路径上的重大进展,为未来的多模态任务应用提供了更多可能性。
在人工智能领域,多模态任务的表现一直备受关注,OpenAI的CLIP模型便是其中的佼佼者,尤其在视觉问答(VQA)和文档理解等任务中表现突出。然而,CLIP模型的训练依赖于大规模且复杂的语言数据集,这在一定程度上限制了其广泛应用。为了突破这一局限,meta利用自家的metaCLIP数据集(包含20亿张图像)进行训练,完全摒弃了语言监督,旨在纯粹通过视觉数据来提升模型性能。
实验结果表明,随着模型参数规模的增加,WebSSL在VQA任务中的表现呈现出显著提升。特别是在OCR和图表解读任务中,WebSSL的表现甚至超越了CLIP模型。当通过高分辨率(518px)进行微调时,WebSSL在文档理解任务中的表现也取得了大幅提升,进一步缩小了与一些高分辨率模型的差距。
值得注意的是,尽管WebSSL模型是在无语言监督的条件下进行训练的,但它们仍然展现出与一些预训练语言模型(如LLaMA-3)的良好对齐性。这一发现表明,大规模视觉模型能够在没有显式语言监督的情况下,隐式地学习到与文本语义相关的特征。这一发现为视觉与语言之间的关系提供了新的视角和思考。
meta的WebSSL系列模型的推出,不仅在传统基准测试中取得了优异表现,更为未来无语言监督学习的研究开辟了新的方向。这一系列模型的成功,标志着meta在推动人工智能领域创新方面迈出了重要一步。