ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

LSTM之父发声:残差学习“种子”1991年已埋下,ResNet并非开端?

时间:2025-10-20 01:47:07来源:互联网编辑:快讯

深度学习领域关于残差学习起源的争议再度引发关注。此次发声的是LSTM(长短期记忆网络)联合发明人Jürgen Schmidhuber,他公开指出何恺明团队提出的残差网络(ResNet)并非完全创新,其核心思想可追溯至1991年其学生Sepp Hochreiter的博士研究。

据Jürgen介绍,Hochreiter在攻读博士学位期间首次系统分析了循环神经网络(RNN)的梯度消失问题,并提出通过"循环残差连接"解决这一难题。该方法采用恒等激活函数实现神经单元自连接,权重严格设定为1.0,使每个时间步的输入仅叠加到先前状态。这种设计确保了误差信号在反向传播过程中保持恒定,有效避免了梯度消失或爆炸。

技术细节显示,权重精确度对效果影响显著。当权重为0.99时,误差信号在100个时间步后衰减至37%;若权重降至0.9,则仅剩0.0027%。这种严格的权重设定为后续深度学习残差思想奠定了理论基础。1997年,Jürgen与Hochreiter在此基础上提出LSTM,其核心单元"恒定误差轮盘"(CECs)通过固定权重1.0的循环残差连接,实现了误差在数百甚至数千时间步中的稳定传播。

该理论的发展呈现清晰脉络:1999年vanilla LSTM引入初始值为1.0的遗忘门,形成可控残差连接;2005年通过时间反向传播(BPTT)算法将LSTM展开为深度前馈网络,使每个输入序列时间步对应虚拟层;2015年Highway网络首次将LSTM的门控残差思想引入前馈网络,通过g(x)x+t(x)h(x)的结构实现自适应残差流调整;同年12月ResNet在ImageNet竞赛中取得突破性成功,其残差连接设计被Jürgen认为与展开的LSTM及初始化的Highway网络存在本质相似性。

这场争论背后,折射出深度学习领域长期存在的学术归属争议。2015年ResNet发布当年,深度学习三巨头Bengio、Hinton、LeCun在《自然》杂志联合发表综述论文时,曾因大量引用自身成果而忽略Jürgen等人的贡献引发争议。2018年图灵奖公布后,Jürgen曾撰写200余条文献引用的长文进行反驳。在GAN(生成对抗网络)的原创性争议中,由于提出者是Bengio的学生,双方争论更加激烈。

值得注意的是,这并非Jürgen首次对主流神经网络提出起源质疑。2021年他曾公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer等重大突破均受到其实验室成果启发。例如他认为AlexNet和VGG Net采用了其团队开发的DanNet架构,GAN源于1990年提出的"对抗好奇心"原则,Transformer变体则延伸自快速权重存储系统。但除LSTM的归属得到普遍认可外,其他主张尚未获得学术界广泛支持,甚至衍生出"Schmidhuber is all you need"的调侃说法。

对于当前残差学习起源的争议,有学者指出从Hochreiter的早期研究到ResNet的实践应用,体现了技术思想的渐进发展过程。尽管1991年的研究为后续突破提供了理论基础,但ResNet在架构设计和工程实现上的创新同样具有里程碑意义。这场争论或许将推动学界更深入地审视技术演进的历史脉络。

更多热门内容
Agentic AI时代:借亚马逊云科技之势,重塑组织、商业与出海新路径
所以我觉得是,充分地去leverage像亚马逊云科技能够提供的系统能力,拥抱AI-DLC,这是在AI时代你要做成功的创业或者业务转型,必须要有的一个因素。 张鹏:回到朱总这边,最近您也聊得比较多——中国创业者…

2025-10-20

IROS 2025“桃源”机器人挑战赛收官 全球顶尖团队竞逐具身智能前沿
中新网杭州10月19日电 (钱晨菲 吴怡欣)10月19日,IROS 2025“桃源”与真实世界机器人学习挑战赛(简称“IROS 2025‘桃源’机器人挑战赛”)线下总决赛在杭州钱塘智慧城的杭州智能机器人产业园…

2025-10-19

2025中国VR50强名单揭晓 七成企业含“新”量高 区域生态集聚初现
近年来,“中国VR50强企业”含“新”量逐年提高,获评国家级专精特新“小巨人”企业和国家级高新技术企业的入选企业数量由2023年的4家提升至2025年的38家,占企业总数的76%。 从“中国VR50强企业”…

2025-10-19