ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek与字节跳动:残差流创新路上携手破局 共启AI新征程

时间:2026-01-15 17:53:39来源:互联网编辑:快讯

在人工智能领域,一场关于神经网络架构创新的突破正引发广泛关注。DeepSeek团队近期发表的核心论文,提出了一种名为流形约束超连接(mHC)的新型架构,为解决大规模模型训练中的稳定性难题提供了新思路。这项研究不仅为硬件资源受限的中国AI企业开辟了新的发展路径,也与字节跳动此前在残差流优化方面的探索形成了技术呼应。

自2016年ResNet架构问世以来,残差连接凭借其独特的"捷径连接"设计,成为深度学习模型的骨架式结构。这种设计通过绕过非线性变换层,有效缓解了梯度消失或爆炸的问题,支撑起更深的模型结构。然而,长期以来,业界创新多集中在注意力机制、混合专家(MoE)等模块,残差流本身的技术演进相对缓慢,直至字节跳动在2024年推出超连接(HyperConnection)技术。

字节跳动的超连接技术通过拓宽残差流宽度、构建多路并行信号流,并引入流间交互学习机制,显著提升了模型的表达能力。但在规模化训练过程中,该技术暴露出信号发散的致命缺陷。DeepSeek的测试数据显示,在270亿参数模型的训练中,使用超连接架构的模型在约12000步训练后出现梯度范数剧烈波动,导致训练崩溃;更严重的是,信号强度在第60层膨胀至输入值的3000倍。

DeepSeek团队深入分析了这一问题的根源:超连接技术为追求更强的表达能力,放弃了残差连接原有的恒等映射约束。这种设计在小规模模型中可通过调参掩盖缺陷,但在大规模训练场景下,问题会被急剧放大。基于此,mHC架构提出了创新性解决方案——将可学习的变换矩阵约束在双重随机矩阵构成的流形空间上。

双重随机矩阵的数学特性为信号传播设立了"刚性预算":矩阵每行、每列元素之和均为1且非负,确保输出信号强度严格介于输入信号的最大最小值之间。这种约束机制从根本上杜绝了信号爆炸的可能。更关键的是,双重随机矩阵具有组合不变性,即使多层叠加仍能保持稳定。实验表明,在相同训练场景下,mHC架构的信号放大峰值仅为1.6倍,远低于超连接技术的3000倍。

为控制计算开销,研究团队采用Sinkhorn-Knopp迭代算法进行矩阵投影,仅需20轮迭代即可收敛,将额外训练成本控制在6.7%以内。针对硬件约束带来的系统级挑战,DeepSeek实施了三项关键优化:通过算子融合减少数据搬运;采用反向传播重计算技术以计算换内存;运用流水线并行优化掩盖通信延迟。这些优化将内存开销从随层数线性增长转化为可由模块大小控制的有界开销。

配合基于TileLang编写的混合精度内核(以bfloat16为主,float32保障关键精度),mHC架构实现了全参数规模下的稳定性能提升。测试数据显示,30亿至270亿参数模型搭载该架构后均表现优异:270亿参数模型在BIG-Bench Hard复杂推理任务上提升2.1%,在DROP阅读理解任务上提升2.3%。这些成果验证了mHC架构在保持模型性能的同时,显著提升了训练稳定性。

值得注意的是,DeepSeek选择通过arXiv、Hugging Face等开放平台发布研究成果,这种策略虽牺牲了部分传统学术声望,却换来了技术传播的速度与广度。当mHC架构的性能增益可量化、实现可复现时,全球AI实验室都面临新的技术选择:要么跟进类似技术路线,要么必须论证自身路径的优越性。这种开放模式加速了知识扩散,也形成了直接的技术竞争压力。

此前,DeepSeek的R1模型已引发推理模型研发热潮,而mHC架构的推出很可能推动残差流优化进入新的迭代周期。更深远的影响在于,这项研究向全球AI界传递了明确信号:在硬件资源受限的条件下,中国AI企业正通过数学创新和系统优化走出独特发展道路。这种"在约束中创新"的模式,正在重塑AI竞赛的技术格局。

随着业界对下一代旗舰模型的期待升温,mHC架构的工业化应用成效即将迎来关键检验。无论最终基准测试结果如何,这项研究已证明:AI技术的发展不只有"堆砌算力"这一条路径,硬件限制反而可能成为催生核心突破的催化剂。当技术创新回归数学本质,中国AI企业正在书写新的技术进化篇章。

更多热门内容
具脑磐石亿元融资背后:类脑智能驱动,具身智能迈向认知新阶段
这一从算法到系统的推进方式,也构成了具脑磐石对具身智能2.0的理解:不是让机器人在演示中完成更多动作,而是让机器人真正具备接近人类大脑的认知能力——从少量经验中学习抽象规律,在复杂环境中持续感知和记忆,并在…

2026-05-26

阿里达摩院玄铁9系列处理器适配安卓16,RISC - V迈向规范兼容与产品化新阶段
IT之家 5 月 25 日消息,阿里达摩院玄铁团队今日宣布,玄铁旗下 9 系列高性能处理器已完成对 Android 16操作系统的适配,并面向战略客户定向发布玄铁安卓平台。 玄铁团队表示,作为全球首款成功运…

2026-05-26

雷军晒小米汽车电池极限测试:等效40万公里,针刺后不泄漏不起火不爆炸
5月25日消息,小米创办人、董事长兼 CEO 雷军发布了小米汽车电池的极限测试视频。他表示,小米电池安全测试项目多达 1230项,采用行业极为严苛测试标准。 该极限测试视频展示了等效 40 万公里的磷酸铁锂…

2026-05-26

金龙汽车5月25日跌4.53% 近5日主力净流出超七千万 业务布局多元
(免责声明:分析内容来源于互联网,不构成投资建议,请投资者根据不同行情独立判断) 主营业务收入构成为:汽车及车身件94.89%,其他(补充)5.11%。2026年1月-3月,金龙汽车实现营业收入57.61亿元…

2026-05-26

石头科技吸尘器主机外观设计专利获批,技术创新引领清洁设备新潮流
根据数据显示,公司新获得的专利授权数量已达到174个,较去年同期增长了26.09%。这一增长不仅反映了公司在技术研发上的持续投入,也彰显了其在行业中的竞争力。石头科技在清洁设备领域的技术研发与专利布局,显示出…

2026-05-26

速腾聚创携手石头科技:以激光雷达技术赋能,共促割草机器人全球普及
来源:市场资讯 (来源:界面新闻) 5月25日,RoboSense。双方将基于割草机器人领域的合作基础,以数字化激光雷达技术,推动石头科技新一代割草机器人加速智能化升级,共同促进割草机器人在全球市场的规模化应…

2026-05-26

石头科技再获吸尘器主机外观专利,今年专利授权量增近三成且研发投入大涨
设计重点:产品形状。研发投入与专利增长 今年以来,石头科技已获174项专利授权,较去年同期增长近三成。2025年研发投入达14.2亿元,同比增长46.13%。公司运营概况 对外投资6家企业,参与招投标项目…

2026-05-26