ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek密集技术输出与扩招并行,梁文锋或携V4开启AI新篇章

时间:2026-01-14 23:49:19来源:互联网编辑:快讯

当多数科技企业放缓节奏准备迎接假期时,DeepSeek团队却在GitHub上掀起技术风暴。这家以创新著称的AI公司接连开源新模块Engram代码,并发布两篇引发行业热议的论文,其中《Conditional Memory via Scalable Lookup》与北京大学联合攻关,直指大模型记忆机制的核心痛点。

研究团队提出的Engram架构犹如为模型配备外置记忆硬盘,通过构建可扩展的检索系统,使知识调用时间复杂度降至O(1)。实验数据显示,在270亿参数规模下,该模块使模型在MMLU基准测试中提升3.4%,数学能力提升2.4%,长文本检索准确率从84.2%跃升至97%。这种"以记忆换算力"的设计颠覆了传统MoE架构的思维定式,证明适度分配资源给静态记忆能显著提升模型综合性能。

元旦期间发布的《mHC:流形约束超连接》则聚焦超大规模模型训练稳定性难题。针对传统残差连接在千亿参数模型中失效的问题,研究团队通过数学方法将神经网络约束在特定流形空间,开发出TileLang融合内核框架。该架构在270亿参数模型上实现训练损失降低0.021,推理速度提升2.1%,其创新的DualPipe调度策略使计算与通信重叠率提高40%。

技术突破的背后是持续扩张的人才版图。招聘平台显示,DeepSeek近期开放深度学习研究员、全栈工程师等核心技术岗位,覆盖预训练、多模态、系统优化等多个方向,工作地点新增北京选项。值得注意的是,创始人梁文锋连续出现在两篇论文作者名单中,这种高强度技术输出与团队稳定性形成鲜明对比。据内部人士透露,此次招聘主要为应对下一代模型研发需求,此前行政岗位的扩充已为团队扩张埋下伏笔。

行业观察者注意到,Engram与mHC架构形成完美互补:前者解决知识存储与调用效率,后者保障超大规模训练稳定性。这种技术组合暗示着V4模型可能突破传统参数堆砌模式,通过架构创新实现质变。特别是Engram支持的"预取-重叠"策略,使CPU内存可承担知识存储功能,为降低推理成本开辟新路径。

更多热门内容
智谱携手华为开源GLM-Image模型 国产算力生态适配再获突破性进展
【CNMO科技消息】1月14日,国内人工智能企业智谱与华为联合宣布,开源新一代图像生成模型GLM-Image。API调用模式下,生成一张图片的成本仅为0.1元,极大降低了企业和开发者使用先进图像生成技术的门槛…

2026-01-14

福建电子口岸:港口设备自动化大模型助力智慧港口全流程升级
针对港口行业面临的作业效率低下、异构设备交互协同困难、复杂场景感知精度不足以及人工成本高等痛点问题,基于其自主研发的覆盖港口装卸、堆存、运输全流程的高质量数据集进行多模态混合训练,一套模型实现对港口全流程的…

2026-01-14

华为马悦:以数智化赋能物流转型,携手伙伴共绘智慧供应链新蓝图
双方团队紧密协作,围绕云南建投物流“成为世界一流供应链生态运营商”的愿景,联合广大生态伙伴,对跨境物流、园区运营、冷链服务等关键场景开展了系统性调研与联合诊断;结合“云上营家”的品牌蓝图,双方共同推进方案设计…

2026-01-14

雄安“机器人课堂”开课啦!异构机器人集群受训开启智能新篇
1月6日,在中国雄安集团数字城市科技有限公司的具身智能训练场内,数据采集员正对异构机器人进行具身智能训练。在雄安新区工信科技数据局的指导下,中国雄安集团数城公司以“多品牌、多场景、全流程”为特色,打造了这片…

2026-01-14

2025年中国人工智能产品外贸蓬勃发展 “含智量”稳步提升
会上,海关总署副署长王军表示,按照报告的产品口径初步测算,2025年我国的人工智能相关产品贸易趋势与全球基本同步,呈现出蓬勃发展的态势。 在中间品领域,丰富的应用场景为我国人工智能技术落地提供了广阔的空间,带…

2026-01-14

南海传来好消息!我国首台海底地层立体钻探监测机器人试验成功
IT之家 1 月 14 日消息,据央视新闻今日报道,由广州海洋地质调查局自主研发的我国首台能在海底地层空间进行立体钻探和监测的机器人,在南海顺利完成了试验作业,这也标志着我国深海勘探与地层原位监测技术取得重要…

2026-01-14

南海传喜讯!我国首台海底地层钻探监测机器人试验成功获突破
记者今天(14日)从自然资源部中国地质调查局获悉,由广州海洋地质调查局自主研发的我国首台能在海底地层空间进行立体钻探和监测的机器人,在南海顺利完成了试验作业,这也标志着我国深海勘探与地层原位监测技术取得重要突…

2026-01-14