在人工智能领域的一次重大突破中,阿里巴巴于4月29日正式揭晓了其上半年最具分量的成果——Qwen 3大型AI模型。这一发布标志着国内AI技术的又一里程碑。
Qwen 3采用了前沿的混合专家(MoE)架构设计,参数量达到了2350亿,但在激活时仅需220亿,相比之前的DeepSeek-R1模型,参数量减少了三分之二,而性能却实现了全面飞跃。这一改变不仅优化了模型结构,还显著提升了运算效率。
尤为Qwen 3是国内首款融合了“快速推理”与“深度思考”能力的混合推理模型。这一特性使得Qwen 3能够根据任务复杂程度智能选择推理路径,对于简单问题能够迅速响应,而对于复杂问题则能进行多步骤的深入解析,从而大幅降低了推理成本和算力消耗。
在性能评估方面,Qwen 3展现出了非凡的实力。在奥数水平测试中,Qwen 3在AIME25评测中获得了81.5分,刷新了开源模型的记录。在代码能力评估中,LiveCodeBench评测结果显示,Qwen 3得分突破70分,甚至超越了Grok3模型。而在评估模型与人类偏好对齐的ArenaHard评测中,Qwen 3以95.6分的高分,超过了OpenAI-o1和DeepSeek-R1。
除了性能的大幅提升,Qwen 3的部署成本也显著降低。仅需4张H20显卡即可部署Qwen 3的满血版本,这为更广泛的应用提供了可能。Qwen 3还提供了丰富的模型版本选择,包括2款MoE模型(30B和235B)以及6款密集模型(0.6B、1.7B、4B、8B、14B、32B),每一款模型都在同尺寸开源模型中达到了最佳性能。
在应用层面,Qwen 3原生支持MCP协议,这大大降低了编码的复杂性,使得手机及电脑Agent操作等任务变得更加高效。同时,Qwen 3首次支持119种语言和方言,为全球开发者、研究机构和企业提供了前所未有的便利。他们可以在魔搭社区、HuggingFace等平台免费下载模型并进行商用。