ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI也需“睡眠”充电?大模型“小憩”后推理能力显著提升

时间:2026-05-27 19:43:29来源:互联网编辑:快讯

卡内基梅隆大学与马里兰大学的研究团队在人工智能领域取得一项突破性进展——他们为大语言模型设计了类似人类睡眠的机制,以解决长文本处理中的性能瓶颈问题。这项研究的核心发现是,当模型处理复杂推理任务时,强制"休息"并进行多轮信息整合,能显著提升其逻辑推导能力。

传统Transformer架构在处理长上下文时面临双重挑战:注意力机制的计算量随文本长度平方级增长,同时KV缓存的线性膨胀导致内存压力剧增。现有解决方案要么直接丢弃早期信息,要么采用SSM+Attention混合架构压缩历史数据。但研究团队发现,即便快速权重仍有存储空间,模型在处理多步骤推理时仍会因单次前向传播的局限性而失效,这与人类无法即时消化所有经历的现象颇为相似。

受人类睡眠机制的启发,研究人员构建了离线信息整合流程。当模型接近上下文窗口上限时,系统会暂停接收新输入,进入"睡眠"状态。在此阶段,模型通过多轮递归前向传播反复提炼已有信息,利用可学习的局部规则更新快速权重,完成深度知识压缩。这个过程中,KV缓存被清空以释放内存,模型醒来后携带更新后的参数继续工作。

实验采用元胞自动机、多跳图检索和无限数学推理三类任务进行验证。结果显示,增加"睡眠"迭代次数能持续提升模型表现,尤其在需要多步骤逻辑推导的复杂任务中效果显著。简单任务单次处理即可完成,而高难度问题则需要多轮信息打磨才能理清思路。值得注意的是,所有额外计算开销都集中在离线整合阶段,正常推理流程仍保持单次前向传播的效率。

这项研究为解决大模型的长文本处理难题提供了新思路。通过模拟人类记忆巩固机制,模型在保持实时处理能力的同时,获得了深度思考的空间。这种张弛有度的工作模式,或许正是突破当前技术瓶颈的关键所在。当AI学会在适当时候"打个盹",其处理复杂问题的能力反而得到了质的提升。

更多热门内容
上海稀宇科技预告MiniMax M3系列将至,M2系列“自我进化”已参与自身开发闭环
该推文转发了一篇 5 月 26 日发表在 arxiv 上的论文《The MiniMax-M2 Series: Mini ActivationsUnleashing Max Real-World Intel…

2026-05-27

苹果iOS 27版Siri大革新:深色主题登场,视觉似WWDC26图且支持持续对话
古尔曼曾于今年 5 月初爆料称,苹果公司计划在 iOS 27 系统(代号 Rave)中重塑 Siri,调整其为独立 App,并采用类似ChatGPT 的聊天机器人式交互,并深度集成灵动岛体验。 在本次补充…

2026-05-27

华为6月1日发布新一代鸿蒙智家 依托AI技术打造10大居家智慧场景
5月27日,华为官方宣布,将于6月1日举行的nova16系列及全场景新品发布会上,正式推出新一代华为鸿蒙智家,产品核心卖点为“全生态AI进化”。 据介绍,华为鸿蒙智家是华为旗下全场景智慧生活品牌,依托AI语…

2026-05-27