ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

OpenAI新开源模型:99.9%权重为零,稀疏性技术或改写大模型未来

时间:2025-12-15 02:15:25来源:快讯编辑:快讯

OpenAI近期低调开源了一款仅有0.4亿参数的特殊语言模型,其核心架构中99.9%的权重参数被强制归零。这项名为Circuit Sparsity的技术突破,通过极端稀疏化的设计路径,试图破解传统大模型难以解释的"黑箱"困境。研究人员宣称,这种改造后的Transformer架构能让AI决策过程像电路图般透明可追踪。

传统大模型的神经网络如同纠缠的毛线团,数以亿计的参数在密集连接中传递信息,导致决策路径难以拆解。而新模型通过L0范数约束技术,在训练阶段就强制切断99.9%的无效连接,仅保留千分之一的活性通道。这种设计使信息流沿固定路径传输,每个神经元都承担特定功能模块——就像电路中的电阻、电容各司其职。

实验数据显示,在预训练损失相当的情况下,稀疏模型的任务专属电路规模仅为稠密模型的1/16。以Python引号闭合任务为例,其核心电路仅由2个MLP神经元和1个注意力头构成,包含专门的引号检测器和类型分类器。研究人员证实,这些模块具有严格的必要性:移除任一节点都会导致任务失败,确保了计算路径的可验证性。

这项技术对当前主流的混合专家模型(MoE)构成挑战。MoE通过门控网络将任务分配给多个专家子网络,但存在两个根本缺陷:其一,专家间信息协同依赖复杂的负载均衡机制,容易导致特征流形割裂;其二,专家功能边界模糊,无法实现微观机制的精准拆解。相比之下,Circuit Sparsity通过超高维度特征投射和严格激活限制,从设计层面确保每个特征的单义性和正交性,从根源上避免了信息干扰。

然而极端稀疏化也带来显著代价。该模型的训练和推理计算量达到传统稠密模型的100-1000倍,目前尚无法达到顶尖大模型的性能水平。作为对比,MoE架构在算力效率与模型性能的平衡上已形成成熟方案,短期内仍将是工业界的主流选择。研究团队承认,这项工作仅是可解释性探索的早期尝试,未来计划向更大规模模型扩展。

针对训练效率问题,研究人员提出两条优化路径:一是从现有稠密模型中提取稀疏电路,通过复用基础框架降低成本;二是持续改进原生稀疏模型的训练机制,在保持可解释性的同时提升计算效率。这些探索或许能为破解大模型黑箱问题提供新的技术范式。

更多热门内容
2025年我国人工智能核心产业将超1.2万亿,消费端智能经济活力迸发
消息,据央视新闻报道,记者从中国信息通信研究院了解到,今年以来,我国人工智能产业呈加速发展态势,2025 年人工智能核心产业规模有望突破万亿元。 数据显示,今年以来,生产制造环节的大模型应用增长显著,应用案例…

2025-12-15

2025新能源自动化设备革新图谱:高效节能与智能融合引领绿色智造新未来
全极耳卷绕设备采用磁悬浮驱动技术,将传统机械摩擦能耗降低62%。更巧妙的是其能源管理系统,通过在非峰值时段预存压缩空气,使整体能耗曲线趋于平缓,单台设备年省电可达4.2万度。它通过红外热成像实时监控填充状态,…

2025-12-15

第十五届中国智能车未来挑战赛常熟开赛 智能车与机器人共绘未来交通图景
来自西安交通大学、香港科技大学(广州)、清华大学、上海交通大学等单位的14支参赛队伍,携L4+级智能车进入真实道路和复杂交通环境,围绕“先进自动驾驶与多智能体具身交互”主题,开展多项场景测试,集中检验智能车在…

2025-12-15

Aetherflux推出Galactic Brain太空数据中心,2027年首颗卫星将发射启用
IT之家 12 月 14 日消息,此前专注于太空太阳能发电的企业 Aetherflux 美国加州当地时间 9 日宣布了 GalacticBrain 项目:其计划在轨道上建设数据中心,首颗卫星计划 2027 …

2025-12-14