ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

英伟达开源新标杆:Nemotron 3架构创新,10万亿token数据及训练配方全公开

时间:2025-12-26 22:09:41来源:互联网编辑:快讯

英伟达在开源大模型领域再掀波澜,其最新推出的Nemotron 3系列模型凭借激进的技术路线引发行业关注。该系列不仅采用混合架构突破传统设计框架,更以全链路开源策略打破行业惯例,从训练数据到软件工具均向社区开放。

在架构创新层面,Nemotron 3系列通过混合Mamba-Transformer与MoE(混合专家)架构实现效率跃升。针对Transformer模型因自注意力机制导致的长序列计算瓶颈,研发团队引入大量Mamba-2层替代自注意力层。以Nano型号为例,其核心结构由交替堆叠的Mamba-2层与MoE层构成,仅保留少量自注意力层处理关键任务。这种设计使模型在8k输入、16k输出的典型场景下,吞吐量达到同类模型的3.3倍,且随着序列长度增加优势愈发显著。在长上下文任务测试中,新模型在百万token输入条件下仍保持68.2分的高水准,较前代模型提升近3倍。

针对不同规模模型的需求差异,研发团队提出LatentMoE架构优化专家路由机制。该技术通过将token投影至低维潜在空间进行专家计算,使显存读取与通信开销降低至传统方法的四分之一。实验数据显示,采用该架构的Ultra模型在保持80亿激活参数量的前提下,专家数量从128个增至512个,每个token激活的专家数从6个提升至22个。这种设计在MMLU-Pro、代码生成等任务中带来显著提升,其中数学任务准确率从78.32%跃升至80.19%。

在训练效率方面,NVFP4低精度格式的应用成为关键突破。这种4位浮点格式通过创新的微块缩放技术,在GB300硬件上实现FP8格式3倍的吞吐量。研发团队成功完成25万亿token的稳定训练,在保持模型精度的同时大幅降低计算成本。值得注意的是,该技术对Mamba输出投影层等关键组件采用差异化精度策略,确保关键路径的数值稳定性。

后训练阶段的多环境强化学习框架展现出独特优势。不同于传统分阶段训练模式,该系统同时处理数学推理、编程竞赛、工具使用等八大类任务,通过异步架构解耦训练与推理过程。实验表明,这种同步训练方式使AIME25数学评分从80分提升至90分,工具使用能力评分提升25%。为提升实际部署灵活性,模型还引入思维预算控制机制,允许用户通过设定token上限平衡生成质量与响应速度。

全链路开源策略成为该系列模型的另一大亮点。除模型权重外,研发团队同步开放超过10万亿token的训练数据集、预训练软件栈及训练配方。后训练工具链包含可扩展的RL训练框架NeMo-RL与环境集合NeMo-Gym,均采用Apache 2.0协议开源。这种开放模式为学术界与产业界提供了完整的研究基准,有望推动大模型技术生态的快速发展。

更多热门内容
PROFINET总线厂商大盘点:技术实力派汇聚,助力工业自动化升级
值得一提的是,该公司研发的PROFINET专用电缆采用独特的屏蔽结构,串扰抑制比常规产品提升60%,已成功应用于新能源装备与工业机器人领域。西门子的系统集成能力、菲尼克斯的环境适应性、倍加福的信号处理技术、万…

2026-01-08

英伟达CES 2026聚焦AI 黄仁勋:传统光栅化时代将落幕 神经渲染引领未来
虽然黄仁勋未直接承认 RTX 5090是传统技术的“绝唱”,但该媒体解读认为,他对神经渲染的极力推崇,暗示了依靠纯光栅化计算来提升画质的时代正走向终结。黄仁勋描绘了一个由 AI驱动角色的未来:游戏中的 …

2026-01-08

联发科CES 2026发布Filogic 8000系列 引领Wi-Fi 8新时代无线连接
该 Wi-Fi 8解决方案将为各类产品带来高可靠性的连接能力,广泛应用于宽带网关、企业级AP、以及各类终端设备,如手机、笔记本电脑、电视、流媒体设备、平板、物联网设备等,并赋能各类AI 产品与应用。Med…

2026-01-08

国内首条二维半导体工程化示范线沪上点亮 未来有望引领芯片技术新跨越
月 7 日消息,据澎湃新闻报道,原集微科技的首条二维半导体工程化示范工艺线点亮仪式于 1 月 6日在上海浦东川沙成功举行,这也是国内首条二维半导体工程化示范工艺线,预计将于今年 6 月正式通线。 IT之家查…

2026-01-08