ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

字节跳动联手高校推出UniTok,视觉分词技术迎来新突破

时间:2025-05-07 18:13:07来源:ITBEAR编辑:快讯团队

近日,科技界迎来了一项重要创新,字节跳动携手香港大学及华中科技大学,共同研发出了一款名为UniTok的视觉分词器。这款分词器不仅在视觉生成与理解领域展现出巨大潜力,还成功解决了传统分词器在细节捕捉与语义理解之间的难题。

UniTok采用了前沿的多码本量化技术,通过将图像特征分割成多个小块,并利用独立的子码本进行量化,极大地提升了视觉token的表示能力。这一技术革新使得图像在处理过程中能够呈现出更加精细的细节。据悉,UniTok在ImageNet数据集上的零样本分类准确率高达78.6%,同时图像重建质量也达到了令人瞩目的0.38,远超当前市面上的其他分词器。

UniTok的核心功能涵盖了统一视觉表示与高质量图像重建两大方面。它能够将图像编码为离散的视觉token,这些token不仅适用于图像生成任务,如根据文本描述生成图像,还能够应用于视觉理解场景,例如回答与图像内容相关的问题。UniTok结合了对比学习与重建损失,确保了生成的视觉token与文本描述之间的高度对齐,从而进一步提升了视觉理解的能力。

从技术原理上看,UniTok的多码本量化技术使得视觉token的词汇量实现了指数级增长。同时,它所采用的多头注意力模块也更好地保留了原始token中的语义信息,增强了分解后特征的表达能力。在训练过程中,UniTok始终遵循统一的目标,既确保了图像细节的准确重建,又优化了生成与理解任务。

UniTok不仅在视觉领域取得了显著成果,还为多模态大语言模型(MLLM)的发展注入了新的活力。通过将生成的视觉token映射到多模态语言模型的token空间,UniTok推动了视觉与语言的统一处理。这一技术突破不仅提高了图像生成的效率,还为教育、医疗影像分析等多个领域带来了全新的应用机遇。

更多热门内容
Uber大手笔!再投文远知行1亿美元,自动驾驶领域最大单笔投资?
从知情人士处获悉,Uber承诺在现有投资基础上,向文远知行追加1亿美元股权投资。知情人士透露,该笔投资将于未来数月内完成交割。据悉,这是Uber迄今为止在自动驾驶领域的最大笔投资。(财联社)…

2025-05-07