Qwen3-Embedding系列模型发布：通义千问引领文本表征与排序新潮流-业界动态-ITBear科技资讯

通义千问团队近期揭晓了其Qwen模型家族的新力作——Qwen3-Embedding系列模型，该系列专为文本表征、检索与排序等任务精心打造。基于Qwen3基础模型的深厚底蕴，新系列充分沿袭了其在多语言文本理解上的卓越能力。

在各项基准测试中，Qwen3-Embedding系列模型表现非凡，特别是在文本表征和排序任务上大放异彩。通过MTEB（包括英文版v2、中文版v1、多语言版及代码版）检索数据集的测试，该系列中的0.6B参数规模模型在top-100向量召回结果中展现出色。尤为8B参数规模的Embedding模型在多语言榜单上独占鳌头，以70.58的高分超越了众多商业API服务。

Qwen3-Embedding系列提供了三种不同参数规模的模型配置，从0.6B到8B，以满足多样化的性能与效率需求。开发者可以根据实际场景灵活组合表征与排序模块，实现功能的灵活扩展。该系列模型还支持表征维度的自定义和指令适配优化，用户可以根据具体任务、语言或场景需求，调整表征维度并自定义指令模板，从而优化性能。

在多语言支持方面，Qwen3-Embedding系列同样表现出色，覆盖超过100种语言，包括主流自然语言及多种编程语言，具备强大的多语言、跨语言及代码检索能力。该系列模型采用双塔结构和单塔结构设计，分别应用于Embedding模型和Reranker模型，通过LoRA微调技术，最大限度地保留了基础模型的文本理解能力。

训练过程中，Qwen3-Embedding系列采用了多阶段训练范式，并针对具体应用场景进行了深度优化。Embedding模型历经三阶段训练，包括基于超大规模弱监督数据的对比学习预训练、高质量标注数据的监督训练以及模型融合策略，实现了泛化能力与任务适配性的良好平衡。而Reranker模型则直接采用高质量标注数据进行监督训练，以提高训练效率。

目前，Qwen3-Embedding系列模型已在Hugging Face、ModelScope和GitHub平台开源，用户还可以直接使用阿里云百炼平台提供的最新文本向量模型服务。这一发布标志着通义千问在文本表征与排序领域迈出了重要一步，未来，随着Qwen基础模型的持续优化，该团队将继续提升训练效率，并计划拓展多模态表征体系，构建跨模态语义理解能力。

用户可以通过以下链接获取Qwen3-Embedding系列模型的相关信息：

ModelScope: https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

ModelScope: https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f

Hugging Face: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea

GitHub: https://github.com/QwenLM/Qwen3-Embedding