ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek新研究Engram架构:为AI装上“百科全书” 提升推理与知识能力

时间:2026-01-14 07:26:58来源:快讯编辑:快讯

人工智能领域再迎突破性进展,DeepSeek研究团队联合北京大学在GitHub平台发布了代号为“Engram”的最新研究成果,同步公开的学术论文《基于可扩展查找的条件记忆:大语言模型稀疏性的新维度》引发学界与产业界的广泛关注。这项研究在传统混合专家模型(MoE)之外开辟了新的技术路径,通过构建显式知识检索机制,为提升大语言模型效率提供了全新范式。

当前主流大模型普遍采用MoE架构,其通过条件计算机制在推理阶段仅激活部分参数,有效降低了计算成本。但研究团队指出,现有架构存在根本性缺陷:模型记忆知识的方式仍依赖隐式存储,回答"法国首都"这类简单问题时,需通过多层注意力机制进行复杂矩阵运算,如同用超级计算机计算加减法。这种设计导致模型被迫用大量算力"死记硬背"固定事实,既浪费资源又限制了复杂逻辑处理能力。

针对这一痛点,Engram架构创新性地将自然语言处理中的N-gram模型与深度学习结合,构建了基于哈希映射的可学习向量检索系统。该模块嵌入Transformer主干网络后,形成"检索-融合"双阶段工作流:首先通过多头哈希将局部上下文压缩为检索键,实现近似O(1)时间复杂度的查表操作;随后利用上下文感知门控机制,将检索到的静态记忆向量与动态隐藏状态进行加权融合。这种设计使模型在处理已知知识时直接调用记忆库,将算力集中于未知问题的逻辑推演。

实验数据显示,在总参数量和计算量恒定的条件下,当20%-25%的稀疏参数分配给Engram模块时,模型性能呈现最优"U型曲线"。基于此发现的Engram-27B模型,在知识密集型任务中表现尤为突出:MMLU基准测试得分提升3.4分,中文CMMLU基准提升4.0分。更令人意外的是,该模型在复杂推理任务中也取得显著进步,BBH基准提升5.0分,代码生成任务Humaneval提升3.0分,展现出记忆模块对逻辑能力的正向促进作用。

进一步的可解释性分析揭示,Engram通过承担基础语言模式记忆任务,有效增加了模型的"有效深度"。传统模型底层网络忙于构建词法组合等浅层特征,而引入Engram后,这些固定模式通过查表直接获取,使主干网络得以将更多资源投入高层语义理解。这种计算与记忆的解耦,使模型在不增加层数的情况下,实现了推理能力的质的飞跃。

在工程实现层面,Engram架构展现出突破性的基础设施适配能力。其确定性哈希检索机制支持预取策略,使系统能在正式计算前确定所需记忆向量。实验证明,1000亿参数的记忆表可完全存储于CPU内存,通过PCIe通道异步传输至GPU,仅增加不到3%的推理延迟。这种存储-计算解耦方案,为构建TB级超大规模记忆库提供了可行路径,有望显著降低算力集群建设成本。

随着Engram与年初发布的流形约束超连接(mHC)技术相继问世,DeepSeek-V4的架构轮廓逐渐清晰。新架构将融合mHC优化专家间通信效率,同时引入Engram作为独立记忆模块,形成"动态计算+静态检索"的协同工作模式。这种仿生设计借鉴了人类大脑"海马体负责记忆、新皮层负责计算"的分工原理,为构建更高效、更博学的人工智能系统指明了方向。

更多热门内容
Anthropic推新工具Cowork:让非开发者也能轻松用Claude完成复杂任务
根据 Anthropic 的介绍,Cowork 的设计目标是让 AI 能够在用户授权的本地环境中持续运行任务,并完成跨多个步骤的复杂工作流程。它可以整理文件结构、批量处理文档、生成报告草稿或表格内容,并支…

2026-01-14

2026 CSRankings发布:南京大学登顶AI学科全球榜首,国内高校集群崛起
近日,计算机科学领域权威榜单2026 CSRankings正式发布,在人工智能学科的全球排名中,南京大学以23.7的分数位居全球第一,这一成绩不仅刷新了国内高校在该榜单的历史最佳表现,更标志着中国人工智能研…

2026-01-14

Anthropic推Cowork工具:降低门槛,让Claude化身通用智能助手
周一,Anthropic宣布推出名为Cowork的新工具,这是一个更易于访问的Claude Code版本。文章写道:"这些风险并非Cowork独有,但这可能是您首次使用超越简单对话的更高级工具。 A:Co…

2026-01-14

安徽芜湖街头新“上岗”:自主研发机器人交警助力交通管理新实践
近日,安徽芜湖市街头迎来一位特殊的“新警员”,我国自主研发的机器人交警“芜优智警R001”正式实习上岗,参与一线交通执勤与秩序维护。据了解,“芜优智警 R001”机器人交警安装了6个摄像头和1个激光雷达,目…

2026-01-14

CES 2026:新一代AI陪伴机器人加速入场 开启家庭智慧生活新图景
值得注意的是,本届展会中已有多款产品在交互能力、场景理解与主动服务等方面表现突出,展现出较高的技术成熟度与家庭场景下的可落地性。 这四款代表性产品虽聚焦不同家庭陪伴场景,但均以“情感共鸣+主动服务”为核心设…

2026-01-14

智广海联以多模态大模型为笔,绘就城市治理“数据驱动”新画卷
智广海联积极响应中央城市工作会议精神,以技术创新为核心驱动力,探索多模态大模型赋能城市治理的“数智”转型路径,助力城市从“经验驱动”向“数据驱动”跨越。 会议强调持续推进城市高质量发展,智广海联将以“深化技术…

2026-01-14