字节跳动联手高校推出UniTok，视觉分词技术迎来新突破-业界动态-ITBear科技资讯

近日，科技界迎来了一项重要创新，字节跳动携手香港大学及华中科技大学，共同研发出了一款名为UniTok的视觉分词器。这款分词器不仅在视觉生成与理解领域展现出巨大潜力，还成功解决了传统分词器在细节捕捉与语义理解之间的难题。

UniTok采用了前沿的多码本量化技术，通过将图像特征分割成多个小块，并利用独立的子码本进行量化，极大地提升了视觉token的表示能力。这一技术革新使得图像在处理过程中能够呈现出更加精细的细节。据悉，UniTok在ImageNet数据集上的零样本分类准确率高达78.6%，同时图像重建质量也达到了令人瞩目的0.38，远超当前市面上的其他分词器。

UniTok的核心功能涵盖了统一视觉表示与高质量图像重建两大方面。它能够将图像编码为离散的视觉token，这些token不仅适用于图像生成任务，如根据文本描述生成图像，还能够应用于视觉理解场景，例如回答与图像内容相关的问题。UniTok结合了对比学习与重建损失，确保了生成的视觉token与文本描述之间的高度对齐，从而进一步提升了视觉理解的能力。

从技术原理上看，UniTok的多码本量化技术使得视觉token的词汇量实现了指数级增长。同时，它所采用的多头注意力模块也更好地保留了原始token中的语义信息，增强了分解后特征的表达能力。在训练过程中，UniTok始终遵循统一的目标，既确保了图像细节的准确重建，又优化了生成与理解任务。

UniTok不仅在视觉领域取得了显著成果，还为多模态大语言模型（MLLM）的发展注入了新的活力。通过将生成的视觉token映射到多模态语言模型的token空间，UniTok推动了视觉与语言的统一处理。这一技术突破不仅提高了图像生成的效率，还为教育、医疗影像分析等多个领域带来了全新的应用机遇。