通义千问团队近期揭晓了其Qwen模型家族的新力作——Qwen3-Embedding系列模型,该系列专为文本表征、检索与排序等任务精心打造。基于Qwen3基础模型的深厚底蕴,新系列充分沿袭了其在多语言文本理解上的卓越能力。
在各项基准测试中,Qwen3-Embedding系列模型表现非凡,特别是在文本表征和排序任务上大放异彩。通过MTEB(包括英文版v2、中文版v1、多语言版及代码版)检索数据集的测试,该系列中的0.6B参数规模模型在top-100向量召回结果中展现出色。尤为8B参数规模的Embedding模型在多语言榜单上独占鳌头,以70.58的高分超越了众多商业API服务。
Qwen3-Embedding系列提供了三种不同参数规模的模型配置,从0.6B到8B,以满足多样化的性能与效率需求。开发者可以根据实际场景灵活组合表征与排序模块,实现功能的灵活扩展。该系列模型还支持表征维度的自定义和指令适配优化,用户可以根据具体任务、语言或场景需求,调整表征维度并自定义指令模板,从而优化性能。
在多语言支持方面,Qwen3-Embedding系列同样表现出色,覆盖超过100种语言,包括主流自然语言及多种编程语言,具备强大的多语言、跨语言及代码检索能力。该系列模型采用双塔结构和单塔结构设计,分别应用于Embedding模型和Reranker模型,通过LoRA微调技术,最大限度地保留了基础模型的文本理解能力。
训练过程中,Qwen3-Embedding系列采用了多阶段训练范式,并针对具体应用场景进行了深度优化。Embedding模型历经三阶段训练,包括基于超大规模弱监督数据的对比学习预训练、高质量标注数据的监督训练以及模型融合策略,实现了泛化能力与任务适配性的良好平衡。而Reranker模型则直接采用高质量标注数据进行监督训练,以提高训练效率。
目前,Qwen3-Embedding系列模型已在Hugging Face、ModelScope和GitHub平台开源,用户还可以直接使用阿里云百炼平台提供的最新文本向量模型服务。这一发布标志着通义千问在文本表征与排序领域迈出了重要一步,未来,随着Qwen基础模型的持续优化,该团队将继续提升训练效率,并计划拓展多模态表征体系,构建跨模态语义理解能力。
用户可以通过以下链接获取Qwen3-Embedding系列模型的相关信息:
ModelScope: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
ModelScope: https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
Hugging Face: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
GitHub: https://github.com/QwenLM/Qwen3-Embedding