ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek元旦发布新论文:mHC架构破解大规模训练难题,性能显著提升

时间:2026-01-01 21:43:46来源:互联网编辑:快讯

人工智能领域迎来一项突破性进展,一种名为流形约束超连接(mHC)的新型神经网络架构正式亮相。该架构通过创新设计解决了传统超连接技术在模型训练中面临的数值不稳定难题,同时保持了性能提升优势,为大规模语言模型训练提供了更高效的解决方案。

传统Transformer架构采用的残差连接机制虽能保障信号稳定传输,但其信息通道宽度受限于隐藏层维度。近期出现的超连接技术通过扩展残差流宽度和多样化连接模式突破了这一限制,但新架构在训练过程中暴露出两个关键问题:连接矩阵自由学习导致的数值爆炸或消失现象,以及显存读写和通信成本随通道扩展成倍增加的"显存墙"困境。

研究团队提出的mHC架构通过多流并行机制重构残差连接空间,将传统单一残差流扩展为多流架构。其核心创新在于利用Sinkhorn-Knopp算法将连接矩阵约束在双拟随机矩阵流形上,确保信号传播过程中特征保持凸组合特性。这种数学约束使得信号范数在传播过程中保持稳定,从根本上解决了恒等映射属性被破坏引发的训练不稳定问题。

在基础设施优化层面,研究团队开发了三项关键技术:通过算子融合将多次矩阵运算整合为单一操作,减少内存带宽瓶颈;采用选择性重计算策略,在反向传播阶段动态重建中间激活值以降低内存压力;扩展DualPipe调度算法,实现通信与计算的高效重叠。这些优化措施使得mHC在扩展倍率达到4倍时,仅增加6.7%的训练时间开销。

实验验证环节,研究团队基于270亿参数规模的模型展开测试。对比结果显示,mHC架构在训练稳定性方面表现优异,最终损失值较基线模型降低0.021,梯度范数波动幅度显著减小。在8个下游基准测试中,mHC在零样本和少样本场景下均展现性能优势,特别是在复杂推理任务BBH和DROP上分别取得2.1%和2.3%的性能提升。

规模扩展实验进一步验证了架构的实用性。在30亿至270亿参数的跨规模测试中,mHC的性能优势随模型增大保持稳定,仅呈现轻微衰减。针对训练数据量的专项测试表明,30亿参数模型在处理1万亿token训练集时,性能提升曲线持续上扬,证明该架构能有效应对大规模数据训练需求。

更多热门内容
火星中纬度亚马孙平原或成人类新家园:水冰资源助力长期驻留与生命探寻
在地球上,冰既能保存远古生命的生物标志物,也能成为微生物的生存环境。通过研究火星上的冰,或许能解答这里是否曾适合生命存在这一关键问题。” 此外,还需通过火星车或未来人类探测任务,确认这些冰是纯水冰还是混杂其…

2026-01-01

唐源电气:利润承压下订单薪酬创新高,AI转型能否铸就未来优势?
其根基是能承受350公里时速考验的机器视觉与AI算法,这在工业领域是极高的技术门槛。这为我们的“战略投入说”提供了又一支撑。 这一异常增幅显著高于营收及订单增长节奏,很可能意味着公司部分下游客户的回款能力或…

2026-01-01

从深空深海到民生日常:2025中国科技以硬核突破绘就温暖未来
走进2026,从微观到宏观、从基础到应用,重大成果正由“点状突破”迈向“系统爆发”,“硬核实力”与“民生温度”共同勾勒出中国科技新答卷的鲜明底色。 首次揭示月球背面约28亿年前仍存在年轻的岩浆活动;获取人类…

2026-01-01