ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek再发新论文,DualPath架构如何将推理吞吐量提升近2倍?

时间:2026-02-28 03:25:48来源:TechWeb编辑:快讯

2月27日消息,就在外界翘首期盼DeepSeek-V4大模型发布之际,DeepSeek团队再次带来了一份技术惊喜。

论文开篇指出了一个重要趋势:LLM正在从单轮对话机器人演变为能够自主规划、调用工具、解决现实世界任务的Agentic系统。在这种新范式下,模型不再处理孤立的提示词,而是参与长达数十甚至数百轮的长期会话,上下文不断累积。

这种变化带来了全新的计算特征:高KV-Cache(键值缓存)命中率、低计算需求。论文中的数据显示,在典型的编码任务轨迹中,平均轮次达到157轮,平均上下文长度32.7K tokens,而每次追加的平均长度仅429 tokens,这意味着KV-Cache命中率高达98.7%。

这种“长上下文、短追加、多轮次”的工作负载模式,使得KV-Cache的加载效率而非计算效率成为主导性能的关键因素。

现有架构的致命弱点

当前主流的LLM推理系统普遍采用预填充-解码分离架构。在这种设计中,预填充引擎负责从分布式存储加载KV-Cache,然后传输给解码引擎进行自回归生成。

然而,论文揭示了一个严重的资源利用不平衡问题:预填充引擎的存储网络带宽成为整个系统的吞吐瓶颈,而解码引擎的存储网络带宽却基本闲置。

更令人担忧的是硬件发展趋势。论文数据显示,从NVIDIA Ampere架构到Blackwell架构,I/O与计算的比例下降了14.4倍。这意味着GPU算力增长远快于网络带宽和HBM容量的增长,导致I/O瓶颈问题日益严重。

面对这一挑战,DeepSeek团队提出了一个反直觉的解决方案:让KV-Cache加载不再局限于预填充引擎。

实现这一设计面临三个关键挑战:

推理吞吐量提升近2倍

论文在三个模型上进行了全面评估:DeepSeek-V3.2 660B、一个27B的降规模版本以及Qwen2.5-32B。

同时,论文也指出了未来工作方向:更自适应、更灵活的并行度和预填充-解码比例配置方法,以及在大规模部署中实现更低的TTFT(Time To First Token)百分位数。

更多热门内容
Cursor自研Composer 2模型性能飙升 价格大降 编程领域迎来新变革
而据Cursor透露,它之所以能在性能和价格之间取得平衡,核心还是靠引入了一种新的强化学习方法。而Cursor的解法是——首先总结很重要,其次把这种总结能力内化成模型自己的能力也很重要。 在一组高难度软件…

2026-03-22

OpenAI收购Astral:AI编程新棋局,开发者工作流将迎重大变革?
这是OpenAI把手伸进了全球数百万Python开发者的日常工作流里,直接把你每天都在用的基础设施,装进了自己的AI口袋。OpenAI的算盘是:当AI能无缝操作开发者每天都在用的基础设施时,它就成了不可替代…

2026-03-22

苹果CEO库克访华谈AI:放下恐惧,让人工智能为生活增添更多快乐
IT之家 3 月 21 日消息,据央视财经今日报道,苹果公司首席执行官蒂姆 · 库克现身北京朝阳某艺术空间,观看了解人工智能等数字化技术在壁画复原等传统文化保护和传承方面的最新应用。在我们看来,人工智能是对人…

2026-03-22

砥脊科技AI主播“球球AI”全球直播,聚焦脑机接口技术发展与安全规范
目前资本市场对Neuralink等头部公司估值预期较高,“球球AI”据此判断,脑机接口大众化产品应用落地可能在未来几年内加速推进。 为此,论论全球提出了一个解决方案:全面呼吁构建“开源科技文明”——推动脑机接…

2026-03-22

MIT博士突破性成果:在Transformer内嵌入计算机,重塑LLM能力边界
这意味着,从此LLM不再是靠概率预测下一个智元(Token)的文字游戏机,而是进化成了一台真正的数字计算机。 为了绕过这一限制,他们发明了一种新的解码路径,实现了指数级加速的注意力机制,让每智元(Token…

2026-03-22

华为云AI战略新篇:以行业智能体为核,共筑企业级AI创新新生态
邮储银行软件研发中心处长李佳斌表示,从“邮储大脑1.0”聚焦感知智能,到“2.0”聚焦执行、生成、交易的能力升级,邮储银行坚持“发展与安全并重”,通过“业务提意向、技术先预研、试点再推广”的研发模式,重点推进…

2026-03-22

华为发布Atlas 350加速卡:昇腾950PR助力,算力超H20近3倍且支持FP4低精度
与前一代昇腾芯片相比,昇腾950PR在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升。据华为昇腾计算业务总裁张迪煊介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前…

2026-03-22

华为跨界再出招!成立传媒军团,以技术生态双驱动重塑传媒新格局
重磅消息传出,华为将正式成立传媒军团,聚焦传媒行业数字化转型,布局全场景传媒生态,从内容生产、传播运营到商业化变现,全方位打通产业链,彻底打破传统传媒行业格局!在技术层面,华为5G 技术能实现超高清视频、直…

2026-03-22

华为AI F5G-A全光园区方案亮相,以“光智融合”赋能园区智慧升级
记者3月21日获悉,在华为中国合作伙伴大会2026期间,华为发布了面向智慧园区的AI F5G-A全光园区解决方案,通过光网络与人工智能技术的深度融合,为快速发展的园区AI应用构建全光联接、鸿蒙物联、多维感知…

2026-03-22