阿里巴巴近期宣布了一项重大技术进展,正式向公众开放了通义千问3系列中的全新向量模型——Qwen3-Embedding。这一模型是基于千问3大模型的强大基础,专门针对文本表征、检索和排序等核心应用场景进行了深度优化。
与之前的版本相比,Qwen3-Embedding在文本检索、聚类及分类等关键任务上的性能提升显著,最高可达40%以上。在业界知名的MTEB等专项评测中,Qwen3-Embedding-8B版本更是脱颖而出,超越了谷歌的Gemini Embedding、OpenAI的text-embedding-3-large以及微软的multilingual-e5-large-instruct等顶尖模型,一举夺得了同类模型的最佳性能桂冠。
向量模型作为AI领域的“语言转换器”,能够将文本、图像等非结构化数据转化为机器易于理解的向量形式,进而实现高效的信息分类、检索和排序。通义团队依托千问3大模型,通过对比训练、SFT技术和模型融合等手段,精心打造出了包括Qwen3-Embedding文本嵌入模型和Qwen3-Reranker文本排序模型在内的全新向量模型系列。
得益于千问3的多语言能力,Qwen3向量模型系列能够支持超过100种语言,并且涵盖了多种编程语言,这使其在多语言、跨语言及代码检索方面展现出了强大的实力。此次开源的Qwen3向量模型共有9款,涵盖了0.6B、4B、8B等不同规模以及GGUF版本,为开发者提供了丰富的选择。
开发者可以根据自己的实际需求,自由选择并组合这些模型模块,甚至还可以自定义向量或指令,以实现针对特定任务、语言和场景的深度优化。目前,Qwen3 Embedding和Reranker模型已经成功上架魔搭社区、Hugging Face和GitHub等平台,开发者还可以通过阿里云百炼直接使用API服务。
自4月29日千问3大模型开源以来,其已经在Artificial Analysis、LiveBench、LiveCodeBench、SuperClue等多个全球评测榜单中夺得了开源冠军的荣誉,展现了其卓越的性能和广泛的应用潜力。