阿里巴巴在人工智能领域再次迈出重要一步,正式向公众开放了全新的千问3向量模型系列——Qwen3-Embedding。这一开源举措基于千问3的强大底座,专为文本表征、检索及排序等应用场景进行了深度优化,彰显了阿里巴巴在AI技术研发上的强劲实力。
Qwen3-Embedding相较于其前身,在文本检索、聚类及分类等核心功能上实现了显著提升,性能提高超过40%。这一显著进步不仅巩固了其在技术领域的领先地位,更在MTEB等专业评测中超越了包括谷歌Gemini Embedding、OpenAI的text-embedding-3-large以及微软multilingual-e5-large-instruct在内的众多顶尖模型,荣获同类模型中的最佳表现(SOTA)。
向量模型作为AI的“语言转换器”,通过将文本、图片等非结构化数据转换为机器易于理解的向量形式,极大地提升了信息分类、检索及排序的效率。阿里巴巴的通义团队利用对比训练、SFT以及模型融合等先进技术,成功研发出这一新型向量模型,其中不仅包含文本嵌入模型Qwen3-Embedding,还涵盖了文本排序模型Qwen3-Reranker。
千问3向量模型的一大亮点是其强大的多语言能力,支持超过100种语言,包括多种编程语言,展现出卓越的多语言、跨语言及代码检索能力。这一特性为全球开发者提供了更为丰富的应用场景和更广阔的开发空间。
此次开源的千问3向量模型系列共有9款,涵盖不同尺寸(如0.6B、4B、8B等)及GGUF版本,开发者可以根据实际需求选择合适的模型,并自由组合模块。开发者还可以自定义向量或指令,以实现对特定任务、语言和场景的深度优化。这一高度的灵活性将极大地提升开发效率。
目前,Qwen3-Embedding和Qwen3-Reranker模型已在魔搭社区、Hugging Face及GitHub等多个平台上开放源代码,开发者还可以通过阿里云的百炼平台直接使用API服务。自4月29日开源以来,千问3大模型已在多个国际评测中取得开源冠军的优异成绩。