ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek开源Engram新架构:梁文锋合著,或成V4核心技术基础

时间:2026-01-13 07:23:58来源:互联网编辑:快讯

人工智能领域迎来一项突破性进展,DeepSeek团队在GitHub平台开源了名为Engram的创新技术模块,并同步发布题为《通过可扩展查找实现条件记忆:大语言模型稀疏性的新维度》的学术论文。这项研究通过解耦知识存储与逻辑推理两大核心功能,为提升模型效率开辟了全新路径。

传统大语言模型普遍采用Transformer与专家混合(MoE)架构,通过动态激活部分参数实现计算成本控制。但研究发现,现有架构在处理事实性记忆(如固定知识问答)与逻辑推理(如代码调试)时存在显著效率差异。以DeepSeek系列模型为例,尽管MoE架构有效缓解了参数量激增带来的计算压力,但在处理需要精确记忆的任务时仍存在优化空间。

Engram技术的核心创新在于构建了独立的记忆处理通道。该模块通过哈希算法将输入文本切分为N-gram片段,并映射至可学习的查找表,实现O(1)时间复杂度的确定性检索。这种设计使模型在保持参数规模的同时,将记忆存储与逻辑计算彻底分离——静态记忆通道负责快速检索已知模式,动态计算通道专注处理复杂推理任务。

技术实现层面,Engram模块被嵌入Transformer架构的早期阶段。当输入文本进入模型时,该模块首先进行模式重建,将相关背景知识检索出来作为后续计算的输入素材。与传统自注意力机制不同,这种条件化记忆检索机制会根据上下文隐状态动态调整检索策略,确保提取的记忆片段与当前任务高度相关。

实验数据显示,在270亿参数规模的测试模型中,Engram模块可占用高达60%的参数用于记忆存储,但在实际推理过程中仅消耗极少量计算资源。这种参数分配策略使模型在知识调用、数学推理等任务上的表现显著提升,同时保持了与全参数模型相当的计算效率。研究团队特别指出,Engram与MoE架构形成互补关系:前者处理记忆检索的"已知已知",后者专注逻辑推理的"未知未知",二者协同构成更高效的双系统架构。

技术社区对这项创新给予高度关注。Reddit平台上的开发者讨论指出,Engram通过引入静态记忆维度,解决了MoE架构在模式重建方面的固有缺陷。有评论认为,这种确定性寻址机制使得模型可以将庞大记忆表卸载至主机内存,在几乎不增加推理开销的情况下扩展知识容量。另有开发者指出,该技术与传统NLP中的n-gram嵌入存在理念相通之处,但通过现代化改造实现了质的飞跃。

关于技术落地,社区猜测Engram可能成为DeepSeek下一代模型的核心组件。X平台上的技术分析认为,这种记忆-推理分离架构预示着大模型发展将进入新阶段,未来可能出现更多针对特定任务优化的专业化模块。有开发者调侃,这项来自中国团队的创新或将改变行业技术路线,甚至引发新的"抄袭"竞赛。

目前,Engram的完整代码与论文已在GitHub公开,开发者可自由访问实现细节。这项研究不仅为大模型架构设计提供了新思路,其开源特性也将推动整个领域的技术进步。随着更多研究者参与优化,基于查算分离原理的新型模型架构有望在不久的将来实现更广泛的应用突破。

更多热门内容
科技与人文共舞:“诸子学与人工智能学术研讨会”沪上启幕新篇
在技术赋能研究方面,上海大学文学院副院长宁镇疆教授结合自身研究实践指出,大数据构建的完整语言学资料库,能够为出土文献的文义释读提供精准参照,有效破解疑难问题,同时助力诸子思想史研究中形成更具针对性的问题意识;…

2026-01-13