深度学习领域关于残差学习起源的争议再度引发关注。此次发声的是LSTM(长短期记忆网络)联合发明人Jürgen Schmidhuber,他公开指出何恺明团队提出的残差网络(ResNet)并非完全创新,其核心思想可追溯至1991年其学生Sepp Hochreiter的博士研究。
据Jürgen介绍,Hochreiter在攻读博士学位期间首次系统分析了循环神经网络(RNN)的梯度消失问题,并提出通过"循环残差连接"解决这一难题。该方法采用恒等激活函数实现神经单元自连接,权重严格设定为1.0,使每个时间步的输入仅叠加到先前状态。这种设计确保了误差信号在反向传播过程中保持恒定,有效避免了梯度消失或爆炸。
技术细节显示,权重精确度对效果影响显著。当权重为0.99时,误差信号在100个时间步后衰减至37%;若权重降至0.9,则仅剩0.0027%。这种严格的权重设定为后续深度学习残差思想奠定了理论基础。1997年,Jürgen与Hochreiter在此基础上提出LSTM,其核心单元"恒定误差轮盘"(CECs)通过固定权重1.0的循环残差连接,实现了误差在数百甚至数千时间步中的稳定传播。
该理论的发展呈现清晰脉络:1999年vanilla LSTM引入初始值为1.0的遗忘门,形成可控残差连接;2005年通过时间反向传播(BPTT)算法将LSTM展开为深度前馈网络,使每个输入序列时间步对应虚拟层;2015年Highway网络首次将LSTM的门控残差思想引入前馈网络,通过g(x)x+t(x)h(x)的结构实现自适应残差流调整;同年12月ResNet在ImageNet竞赛中取得突破性成功,其残差连接设计被Jürgen认为与展开的LSTM及初始化的Highway网络存在本质相似性。
这场争论背后,折射出深度学习领域长期存在的学术归属争议。2015年ResNet发布当年,深度学习三巨头Bengio、Hinton、LeCun在《自然》杂志联合发表综述论文时,曾因大量引用自身成果而忽略Jürgen等人的贡献引发争议。2018年图灵奖公布后,Jürgen曾撰写200余条文献引用的长文进行反驳。在GAN(生成对抗网络)的原创性争议中,由于提出者是Bengio的学生,双方争论更加激烈。
值得注意的是,这并非Jürgen首次对主流神经网络提出起源质疑。2021年他曾公开表示,LSTM、ResNet、AlexNet、VGG Net、GAN及Transformer等重大突破均受到其实验室成果启发。例如他认为AlexNet和VGG Net采用了其团队开发的DanNet架构,GAN源于1990年提出的"对抗好奇心"原则,Transformer变体则延伸自快速权重存储系统。但除LSTM的归属得到普遍认可外,其他主张尚未获得学术界广泛支持,甚至衍生出"Schmidhuber is all you need"的调侃说法。
对于当前残差学习起源的争议,有学者指出从Hochreiter的早期研究到ResNet的实践应用,体现了技术思想的渐进发展过程。尽管1991年的研究为后续突破提供了理论基础,但ResNet在架构设计和工程实现上的创新同样具有里程碑意义。这场争论或许将推动学界更深入地审视技术演进的历史脉络。