阿里通义实验室近日宣布推出新一代基础模型架构Qwen3-Next,并同步开源基于该架构开发的800亿参数规模模型Qwen3-Next-80B-A3B-Base。该模型采用创新性的参数激活策略,实际运行时仅需激活30亿参数,在保持高效能的同时显著降低计算资源消耗。测试数据显示,其预训练阶段所需GPU计算资源仅为前代320亿参数模型的9.3%,却实现了更优的推理性能。
在模型能力拓展方面,研发团队构建了完整的模型矩阵。基础版本Qwen3-Next-80B-A3B-Base使用15万亿token的精简训练集,该数据集由Qwen3原始36万亿token语料均匀采样生成。指令微调版本Qwen3-Next-80B-A3B-Instruct专门优化任务执行能力,其输出格式严格遵循指令模式,不包含思考过程标记;而思维链版本Qwen3-Next-80B-A3B-Thinking则通过强制嵌入思考标记,引导模型进行深度推理。两个衍生版本均支持262,144个token的原始上下文窗口,并可通过扩展技术处理百万级token的超长文本。
性能对比测试显示,指令版本在多项基准评估中达到甚至超越2350亿参数旗舰模型Qwen3-235B-A22B-Instruct-2507的水平。在RULER长文本理解测试中,该模型在256k长度范围内持续领先,即便面对层数更多的2350亿参数模型仍保持优势。思维链版本的表现更为突出,不仅全面超越谷歌Gemini-2.5-Flash-Thinking等闭源模型,在部分指标上更接近阿里最新发布的2350亿参数思维模型。
架构层面的创新是该模型实现突破的关键。研究团队引入混合注意力机制,将75%的注意力层替换为Gated DeltaNet线性注意力,剩余25%保留标准注意力架构并实施多项优化。这种组合设计使模型在处理超长上下文时,既能保持标准注意力的精确性,又获得线性注意力的高效计算特性。实验表明,该混合架构在3:1的配比下,性能表现始终优于单一注意力方案。
在高稀疏度混合专家(MoE)架构方面,模型实现了1:50的专家激活比例,较前代1:16的激活比大幅提升计算效率。通过全局负载均衡技术,增加专家总数可稳定降低训练损失,而每个token的实际计算量(FLOPS)却显著减少。稳定性优化方面,研究团队采用零中心化、权重衰减LayerNorm等技术,配合注意力输出门控机制,有效解决了数值不稳定问题,确保模型在超长序列处理中的鲁棒性。
多Token预测(MTP)技术的引入为模型带来双重收益。该机制通过同时预测多个未来token,既提升了预训练阶段的样本效率,又加速了推理过程。在4k上下文场景中,预填充阶段吞吐量提升近7倍,解码阶段提升4倍;当上下文长度超过32k时,两个阶段的吞吐量增幅均超过10倍。特别优化后的多步推理训练,使投机解码的接受率在实用场景中得到显著提高。
开源社区已同步上线该系列模型,开发者可通过魔搭社区、Hugging Face平台获取完整代码,或通过Qwen Chat、阿里云百炼、NVIDIA API Catalog等渠道直接体验。社区反馈显示,多Token预测机制因其对推理效率的显著提升,成为开发者最关注的技术创新点。随着Qwen3-Max-Preview等万亿参数模型、Qwen-Image-edit文生图模型、Qwen3-ASR-Flash语音识别模型的陆续发布,阿里通义在多模态领域的技术布局正持续深化。