ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

阿里通义Qwen3-VL-Embedding与Reranker模型发布开源 助力多模态信息高效检索理解

时间:2026-01-09 05:01:29来源:ITBEAR编辑:快讯

通义大模型团队宣布,正式开源两款面向多模态检索场景的模型——Qwen3-VL-Embedding与Qwen3-VL-Reranker。这两款模型以Qwen3-VL为基础架构,通过统一框架实现文本、图像、可视化文档及视频等模态的协同处理,为混合内容理解与检索提供端到端解决方案。目前,模型代码与权重已通过GitHub平台开放下载。

在技术实现层面,Qwen3-VL-Embedding采用双塔独立编码架构,通过将不同模态数据映射至共享语义空间,生成具备跨模态对齐能力的向量表示。该模型支持单模态或混合模态输入,通过提取基座模型[EOS] token的隐藏状态向量,实现高效的大规模检索编码。实验数据显示,8B参数版本在MMEB-v2基准测试中超越所有开源及闭源模型,在MMTEB多语言评测中亦展现出与纯文本模型相当的性能竞争力。

作为检索流程的精细化组件,Qwen3-VL-Reranker采用单塔交叉注意力架构,通过联合编码查询-文档对实现深层语义交互。该模型通过预测"yes/no"特殊token的生成概率输出相关性分数,在视觉文档检索等任务中较基线模型提升显著。测试表明,8B版本在JinaVDR、ViDoRe v3等数据集上均达到最佳性能,其架构设计有效解决了传统重排序模型跨模态交互不足的痛点。

模型设计团队特别强调其工程实用性:通过动态向量维度调整、任务指令微调等机制,开发者可灵活适配不同业务场景;量化压缩技术使模型在保持精度的同时减少存储开销;多语言支持覆盖30余种语言,满足全球化部署需求。在MMEB-v2、MMTEB等权威评测中,该系列模型在图文检索、视频-文本匹配等12项子任务中均取得领先成绩,验证了其技术架构的普适性。

目前,开发者可通过GitHub仓库(https://github.com/QwenLM/Qwen3-VL-Embedding)获取完整模型代码及训练配置。团队同步释放了模型权重文件与推理示例,支持PyTorch框架下的快速部署。此次开源标志着多模态检索技术进入模块化发展阶段,为智能搜索、内容推荐等应用场景提供新的技术路径。

更多热门内容
农夫山泉创始人钟睒睒跨界布局,养生堂5亿入股智邦锂电进军固态电池领域
IT之家 5 月 25 日消息,近日,农夫山泉创始人、前中国首富钟睒睒通过旗下养生堂有限公司,斥资约 5亿元战略投资固态电池材料企业浙江智邦锂电新材料有限公司(以下简称“智邦锂电”),以约 10% 的持股比…

2026-05-25