AI也需“睡眠”充电？大模型“小憩”后推理能力显著提升-人工智能-ITBear科技资讯

卡内基梅隆大学与马里兰大学的研究团队在人工智能领域取得一项突破性进展——他们为大语言模型设计了类似人类睡眠的机制，以解决长文本处理中的性能瓶颈问题。这项研究的核心发现是，当模型处理复杂推理任务时，强制"休息"并进行多轮信息整合，能显著提升其逻辑推导能力。

传统Transformer架构在处理长上下文时面临双重挑战：注意力机制的计算量随文本长度平方级增长，同时KV缓存的线性膨胀导致内存压力剧增。现有解决方案要么直接丢弃早期信息，要么采用SSM+Attention混合架构压缩历史数据。但研究团队发现，即便快速权重仍有存储空间，模型在处理多步骤推理时仍会因单次前向传播的局限性而失效，这与人类无法即时消化所有经历的现象颇为相似。

受人类睡眠机制的启发，研究人员构建了离线信息整合流程。当模型接近上下文窗口上限时，系统会暂停接收新输入，进入"睡眠"状态。在此阶段，模型通过多轮递归前向传播反复提炼已有信息，利用可学习的局部规则更新快速权重，完成深度知识压缩。这个过程中，KV缓存被清空以释放内存，模型醒来后携带更新后的参数继续工作。

实验采用元胞自动机、多跳图检索和无限数学推理三类任务进行验证。结果显示，增加"睡眠"迭代次数能持续提升模型表现，尤其在需要多步骤逻辑推导的复杂任务中效果显著。简单任务单次处理即可完成，而高难度问题则需要多轮信息打磨才能理清思路。值得注意的是，所有额外计算开销都集中在离线整合阶段，正常推理流程仍保持单次前向传播的效率。

这项研究为解决大模型的长文本处理难题提供了新思路。通过模拟人类记忆巩固机制，模型在保持实时处理能力的同时，获得了深度思考的空间。这种张弛有度的工作模式，或许正是突破当前技术瓶颈的关键所在。当AI学会在适当时候"打个盹"，其处理复杂问题的能力反而得到了质的提升。

图灵奖得主迪菲智源大会发声：未来程序可靠性提升需聚焦形式化方法

2026-06-13

余承东再挑重担：力推盘古大模型，鸿蒙智能迈向新征程

2026-06-13

华为云携手MiniMax：昇腾算力赋能M3模型，打通企业生产力闭环

2026-06-13

华为何波：AIDC能源转型需分三步走源网荷储协同成关键路径

【CNMO科技消息】6月10日，CNMO科技注意到，华为数字能源副总裁何波在做客人民网《人民会客厅》时表示，AI产业发展正在带动数据中心形态演进，算力设备持续运行需要稳定、高效、可持续的电力支撑。在这一背景下…

2026-06-13

轻量化智能眼镜实测：AI赋能如何让日常沟通创作与记录更高效？

这款设备做到了两件核心的事：第一，它保持了普通眼镜的轻量化外形，不会让你在人群中显得突兀；第二，它把AI能力无缝嵌入到你眼前的视野里，实现一种“无感交互”的新状态。如果你也时常觉得被手机通知和操作流程打断，…

2026-06-13

2026复旦暑期论坛：生命组学大数据与AI融合，共探精准医疗新路径

为此在复旦大学生命科学学院和现代人类学教育部重点实验室/上海市遗传学会的共同支持下特举办本次暑期论坛，采用“理论讲解和上机实训相结合”的形式，现场和线上同步开展，旨在满足多组学大数据分析培训的巨大需求并为相…

2026-06-13

科技助力生态守护："空天地五基协同"开启全域监测新篇章

2026-06-13

2026华为开发者大会启幕 HarmonyOS 7携五大发布开启Agent时代新篇

2026-06-12