ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Qwen3重磅发布:双思考模式切换,大型语言模型推理能力再升级!

时间:2025-04-29 08:07:39来源:ITBEAR编辑:快讯团队

近日,通义千问团队震撼发布Qwen3系列大型语言模型,标志着该团队在人工智能领域的又一重大突破。Qwen3在多个基准测试中展现出了卓越性能,特别是在代码理解、数学运算及通用知识应用方面,与业界顶尖模型如DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro相比,毫不逊色。

值得注意的是,Qwen3系列中的小型MoE模型Qwen3-30B-A3B,尽管其激活参数数量仅为QwQ-32B的十分之一,但其表现却更为出色。而Qwen3-4B这样的小型模型,在性能上也能与Qwen2.5-72B-Instruct相媲美。为了促进学术研究与工业应用,通义千问团队此次开源了两个MoE模型权重:一个是拥有超过2350亿总参数和220多亿激活参数的大型模型Qwen3-235B-A22B,另一个是总参数约300亿、激活参数约30亿的小型模型Qwen3-30B-A3B。六个Dense模型也已同步在Apache2.0许可下开源。

Qwen3系列模型引入了独特的思考模式,分为思考模式与非思考模式。在思考模式下,模型会进行逐步推理,深思熟虑后给出答案,尤其适合处理复杂问题;而在非思考模式下,模型则提供快速响应,适用于简单问题。这种双模式设计,让用户能够根据不同任务需求,灵活调整模型的“思考”程度,实现高效的“思考预算”管理。

Qwen3系列还支持多达119种语言和方言,为国际应用提供了广阔空间。其预训练数据集相较于Qwen2.5有了显著扩展,涵盖了约36万亿个token,涉及119种语言和方言。预训练过程经过精心设计,分为三个阶段,确保模型能够高效处理长输入。

为了打造兼具思考推理与快速响应能力的混合模型,Qwen3采用了四阶段训练流程。从长思维链冷启动,到长思维链强化学习,再到思维模式融合,最终通过通用强化学习进一步提升模型能力。这一流程不仅赋予了模型基本的推理能力,还显著增强了其通用性。

Qwen3的发布与开源,无疑将为大型基础模型的研究与开发注入强大动力。通义千问团队致力于赋能全球研究人员、开发者和组织,助力他们利用这些前沿模型,探索创新解决方案。

目前,Qwen3系列模型已在Hugging Face、ModelScope和Kaggle等平台上线,用户可轻松将其集成至研究、开发或生产环境中。对于想要深入了解或体验Qwen3的用户,可通过以下链接获取更多信息:

Hugging Face平台:https://huggingface.co/Qwen/Qwen3-235B-A22B

魔搭社区:https://modelscope.cn/models/Qwen/Qwen3-235B-A22B

Qwen Chat平台:https://chat.qwen.ai

阿里云百炼平台(即将上线,提供100万tokens免费体验):https://www.aliyun.com/product/tongyi

更多热门内容
Meta AI月活破10亿,扎克伯格:将深化个性化与语音对话体验
Meta首席执行官马克·扎克伯格周三在年度股东大会上表示,该公司的人工智能助手MetaAI目前在公司的应用系列中拥有10亿月度活跃用户。扎克伯格说:“今年的重点是深化体验,使Meta AI成为领先的个人AI…

2025-05-29

马斯克xAI豪掷3亿,与Telegram携手部署Grok AI机器人
Telegram公司CEO帕维尔-杜罗夫(Pavel Durov)周三发文宣布,马斯克创立的xAI公司向这家总部位于迪拜的通讯平台支付3亿美元,以部署其Grok人工智能聊天机器人。杜罗夫表示,双方达成为期一年…

2025-05-29

英伟达一季度财报亮眼:营收441亿美元超预期,数据中心收入大增73%
英伟达发布第一财季财报。财报显示,该季度英伟达营收441亿美元,同比增长69%,市场预期432.9亿美元;数据中心收入391亿美,同比增长73%,预估为392.2亿美元。净利润187.8亿美元,同比增长26%…

2025-05-29

DeepSeek新版R1亮相,性能直逼OpenAI顶尖o3模型?
开源大模型平台DeepSeek开源了R1最新0528版本。DeepSeek目前没有对该版本进行任何说明,又只是“悄悄”地开放了模型。估计很快会放出模型卡介绍更多功能。但已经有网友迫不及待的对新版R1进行测试,…

2025-05-29