科学家们近期发现,仅通过文本数据训练的大型语言模型,在处理图像任务时展现出惊人的能力。这一现象引发了学术界的广泛关注,研究人员开始深入探究其背后的机制。他们发现,这些从未接触过图像数据的模型,在配备视觉编码器并经过少量多模态训练后,竟能在视觉任务中表现优异,甚至有些模型能完成从未见过的视觉推理任务。
为解开这一谜题,由meta超级智能实验室和牛津大学联合组成的研究团队开展了系统性实验。他们精心设计了超过100个不同规模的模型,消耗50万GPU小时计算资源,测试不同文本数据组合对模型性能的影响。实验发现,语言模型在纯文本训练中获得的视觉能力,实际上由两种独立技能组成:感知工具负责识别图像基本元素,推理工具负责分析元素间的逻辑关系。
通过分析模型在四种视觉任务上的表现,研究人员发现通用视觉理解和文字识别任务存在显著相关性,反映它们依赖同一种感知引擎。而知识密集型任务和视觉推理任务则依赖推理引擎,且这两个引擎间的相关性极弱。这意味着模型的基础视觉识别能力与视觉推理能力可独立发展,颠覆了传统认知。
为验证推理能力的跨模态特性,研究团队让模型解释视觉问题的推理过程,并评估解释的逻辑严密性和深度。结果显示,代码训练比例从0%增至100%时,模型视觉推理解释的逻辑严密性从4.52%提升至9.52%,推理深度激增六倍多。接受大量代码训练的模型能详细解释边界框判断标准,而未训练的模型只能给出简单答案。
在探索最佳数据配方的过程中,研究团队构建了24种不同比例的数据组合。实验发现,包含60%推理型内容和15%视觉描述内容的配方效果最佳。进一步实验表明,随着推理型内容比例增加,模型视觉能力逐步提升,而语言能力略有下降。其中,包含40%网络文本、35%代码和10%数学内容的mix6配方,在保持语言性能的同时实现了33.3%的视觉准确率。
感知能力的培养则呈现不同特点。研究团队创建的多层次存在基准测试显示,在网络爬虫数据上训练的模型识别小到中等大小物体的能力最强。这归因于网络文本包含对各种视觉概念的丰富描述。实验还发现,仅用25%视觉描述文本训练的模型,在某些复杂视觉任务上的表现优于用100%视觉文本训练的模型,表明单纯增加视觉描述比例未必能提升深层理解能力。
为验证理论发现的实际价值,研究团队训练了两个7B参数的大型模型,分别采用传统语言友好配方和平衡配方。结果显示,平衡配方模型在语言能力测试中的困惑度明显优于对照组,平均准确率也有所提升。在视觉任务测试中,平衡配方模型在知识密集型任务上的表现提升最为显著,验证了推理能力跨模态迁移的理论。
研究过程中还意外发现"盲视觉指令调优"现象。让模型在只有文本指令而无对应图像的情况下学习,再正常训练,可提升整体视觉性能。但这种提升源于模型利用问题线索和预训练知识进行推测,可能导致实际应用中产生幻觉。测试显示,多数先进AI系统在无图像情况下会"编造"答案,引发对当前AI评估方法的反思。
研究为柏拉图表征假说提供了实证支持。该假说认为,文本和图像是现实世界的不同投影,强大模型可从任何单一投影中学习底层结构。计算显示,接受更多结构化推理文本训练的语言模型,与视觉模型的表征相似性更高,且这种相似性与实际视觉任务表现一致。这表明智能可能存在普遍计算原理,反映现实世界本身的结构特征。
针对常见问题,研究团队给出解答:大语言模型的视觉先验由推理先验和感知先验构成,前者来自逻辑文本,后者来自视觉描述文本;代码训练能提升视觉推理能力,因其培养的逻辑思维能力可迁移;培养视觉能力的最佳数据配方包含约60%推理型文本和15%视觉描述文本。