通义大模型团队宣布,正式开源两款面向多模态检索场景的模型——Qwen3-VL-Embedding与Qwen3-VL-Reranker。这两款模型以Qwen3-VL为基础架构,通过统一框架实现文本、图像、可视化文档及视频等模态的协同处理,为混合内容理解与检索提供端到端解决方案。目前,模型代码与权重已通过GitHub平台开放下载。
在技术实现层面,Qwen3-VL-Embedding采用双塔独立编码架构,通过将不同模态数据映射至共享语义空间,生成具备跨模态对齐能力的向量表示。该模型支持单模态或混合模态输入,通过提取基座模型[EOS] token的隐藏状态向量,实现高效的大规模检索编码。实验数据显示,8B参数版本在MMEB-v2基准测试中超越所有开源及闭源模型,在MMTEB多语言评测中亦展现出与纯文本模型相当的性能竞争力。
作为检索流程的精细化组件,Qwen3-VL-Reranker采用单塔交叉注意力架构,通过联合编码查询-文档对实现深层语义交互。该模型通过预测"yes/no"特殊token的生成概率输出相关性分数,在视觉文档检索等任务中较基线模型提升显著。测试表明,8B版本在JinaVDR、ViDoRe v3等数据集上均达到最佳性能,其架构设计有效解决了传统重排序模型跨模态交互不足的痛点。
模型设计团队特别强调其工程实用性:通过动态向量维度调整、任务指令微调等机制,开发者可灵活适配不同业务场景;量化压缩技术使模型在保持精度的同时减少存储开销;多语言支持覆盖30余种语言,满足全球化部署需求。在MMEB-v2、MMTEB等权威评测中,该系列模型在图文检索、视频-文本匹配等12项子任务中均取得领先成绩,验证了其技术架构的普适性。
目前,开发者可通过GitHub仓库(https://github.com/QwenLM/Qwen3-VL-Embedding)获取完整模型代码及训练配置。团队同步释放了模型权重文件与推理示例,支持PyTorch框架下的快速部署。此次开源标志着多模态检索技术进入模块化发展阶段,为智能搜索、内容推荐等应用场景提供新的技术路径。


