近日,科技界迎来了一项重要创新,字节跳动携手香港大学及华中科技大学,共同研发出了一款名为UniTok的视觉分词器。这款分词器不仅在视觉生成与理解领域展现出巨大潜力,还成功解决了传统分词器在细节捕捉与语义理解之间的难题。
UniTok采用了前沿的多码本量化技术,通过将图像特征分割成多个小块,并利用独立的子码本进行量化,极大地提升了视觉token的表示能力。这一技术革新使得图像在处理过程中能够呈现出更加精细的细节。据悉,UniTok在ImageNet数据集上的零样本分类准确率高达78.6%,同时图像重建质量也达到了令人瞩目的0.38,远超当前市面上的其他分词器。
UniTok的核心功能涵盖了统一视觉表示与高质量图像重建两大方面。它能够将图像编码为离散的视觉token,这些token不仅适用于图像生成任务,如根据文本描述生成图像,还能够应用于视觉理解场景,例如回答与图像内容相关的问题。UniTok结合了对比学习与重建损失,确保了生成的视觉token与文本描述之间的高度对齐,从而进一步提升了视觉理解的能力。
从技术原理上看,UniTok的多码本量化技术使得视觉token的词汇量实现了指数级增长。同时,它所采用的多头注意力模块也更好地保留了原始token中的语义信息,增强了分解后特征的表达能力。在训练过程中,UniTok始终遵循统一的目标,既确保了图像细节的准确重建,又优化了生成与理解任务。
UniTok不仅在视觉领域取得了显著成果,还为多模态大语言模型(MLLM)的发展注入了新的活力。通过将生成的视觉token映射到多模态语言模型的token空间,UniTok推动了视觉与语言的统一处理。这一技术突破不仅提高了图像生成的效率,还为教育、医疗影像分析等多个领域带来了全新的应用机遇。