ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

Kimi重构大模型“基石”残差连接:相同算力下模型效率显著提升引关注

时间:2026-03-20 03:01:31来源:互联网编辑:快讯

在人工智能领域,模型性能的竞争从未停歇。当算力与数据条件相当,为何部分模型能脱颖而出?月之暗面(Moonshot AI)用一项颠覆性技术给出了答案——通过重构大模型底层架构,实现了训练效率与模型效果的双重突破。

3月16日,Kimi团队发布技术报告《Attention Residuals》,将自2015年沿用至今的残差连接(Residual Connections)进行彻底革新。实验数据显示,在相同算力条件下,采用新架构训练的模型性能,达到传统基线模型1.25倍算力训练的效果。这一成果引发硅谷AI圈高度关注,多位顶尖学者公开评价其为"深度学习范式升级的里程碑"。

Kimi团队的解决方案充满巧思:通过数学建模发现,深度网络的信息丢失与RNN的时间遗忘机制存在结构相似性。基于此,他们将横向处理序列的注意力机制"旋转"90度,应用于纵向的深度维度。新架构中,每个网络层通过动态查询向量,主动筛选前序层的关键信息,实现信息流动的精准控制。为解决大规模训练的内存瓶颈,团队还设计了Block AttnRes方案,将网络分块处理,在保持性能的同时将推理延迟增幅控制在2%以内。

实证效果令人瞩目:在GPQA-Diamond科学推理任务中,新架构使模型准确率提升7.5%;数学与代码生成任务分别获得3.6%和3.1%的性能增益。这种泛化能力的提升,源于底层架构对信息流动方式的根本性改变——每层网络都能根据任务需求,动态调整信息提取策略,形成更高效的知识表征。

该团队创始人在近期技术峰会上强调:"当行业普遍聚焦模型规模扩张时,我们选择重构底层优化机制。这就像建造摩天大楼,与其不断增加楼层高度,不如重新设计承重结构。"这种"向下深耕"的技术路线,为突破当前AI发展的Scaling Law瓶颈提供了新思路。随着研究论文的公开,全球多个顶尖实验室已开始复现相关实验,一场关于模型底层架构的革新正在悄然兴起。

更多热门内容
扬州首条低空物流航线启航 无人机助力 配送效率提升 开启低空经济新篇章
接下来,丰翼依托新城新开工建设的全空间无人体系应用中心,推动低空物流航线从“单线单点”向“连线成网”升级:一方面,将向扬州市区及顺丰中转场延伸多条市内航线;另一方面,跨城航线也已提上日程,未来将开通扬州至泰州…

2026-04-27

小米投资者日展新款具身机器人:延续CyberOne设计,手部精细操作表现亮眼
4月27日消息,小米在投资者日活动上展示了新款具身机器人,延续 2022 年 CyberOne铁大人形设计方案,机身采用暗灰色面料并印有小米标志,整体科技感较强。 从博主分享的视频来看,新款机器人手部动作流…

2026-04-27