在AIME 2025数学竞赛中,该模型以满分成绩通过测试,其解题过程展现出独特的验证机制。面对压轴题时,模型不仅反复验证答案,还主动调用代码解释器从多角度论证结果。整个推理过程持续4-5分钟,消耗1.2万至1.5万个token,这种深度思考模式显著区别于传统模型。
编程任务测试中,模型开发开源项目分享网站的HTML原型时,虽然生成1417行代码,但网页设计完全符合功能需求。对比测试显示,DeepSeek-V3.2完成相同任务仅需787行代码,这种差异反映出Qwen3-Max-Thinking在代码优化方面仍有提升空间。不过其输出的网页结构清晰,基础功能完整,仅在样式细节上稍显不足。
该模型在常识推理测试中同样表现优异,能准确识别逻辑陷阱。测试人员发现,其回复风格简洁直接,完全聚焦问题核心,这种"去人性化"的交互方式在商务场景中颇具优势。有用户评价称,模型的回复风格更接近专业顾问,避免了情感化表达可能带来的干扰。
目前用户可通过Qwen Chat和阿里云API体验该模型,但需注意其仅支持文本到文本的单一模态。API服务采用限时免费策略,用户可在1024至81920个token的思考预算范围内自主调节,这种设计既控制了计算成本,又保证了推理深度。测试显示,复杂任务消耗的token数量明显高于常规模型,这可能成为大规模应用的主要限制因素。
行业观察者指出,Qwen3-Max-Thinking的定位可能更偏向专业领域,其强大的推理能力在科研、金融分析等场景具有应用潜力。虽然尚未公布完整基准测试结果,但现有表现已引发广泛期待。社交媒体上,用户纷纷询问模型开源时间,特别是能否登陆Hugging Face平台,反映出开发者社区的高度关注。
这款模型作为Qwen3系列的新成员,延续了阿里在大模型领域的技术积累。此前发布的Qwen3系列最大模型参数量已突破万亿规模,此次推理专项模型的推出,标志着阿里在AI技术布局上更加精细化。随着训练进程推进,后续版本有望在效率优化和场景适配方面带来更多突破。