ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

中国芯片,DeepSeek与Kimi的隐秘交点

时间:2026-04-22 17:33:12来源:36氪编辑:快讯

文丨苏扬

编辑丨徐青阳

“K2.6是我们迄今为止最强代码模型。”Kimi在公众号中写道。

4月20日晚间,Kimi正式推出编程、Agent能力都表现更强的开源模型K2.6,距离上一个版本K2.5发布刚好一个季度左右。

这里还有一个小插曲,传闻本周DeepSeek V4也将发布。如果一切按外界预期的推进,这将是Kimi和DeepSeek的第N次撞车。但在更底层的基础设施层面,还有一条暗线:Kimi和DeepSeek这两个大模型创业公司,终将踏入同一条河流——与国产芯片创业公司共进退。

时间倒回2026年3月份,杨植麟在英伟达GTC演讲台,谈及Kimi的技术路线图。他说:“目前普遍使用的很多技术标准,本质上是八九年前的产物,逐渐成为Scaling的瓶颈。”

为了解决类似问题,Kimi给开源社区贡献了首次大规模应用的二阶优化器MuonClip、让大模型处理长上下文更高效的Kimi Linear架构,以及优化深度神经网络层连接的Attention Residuals。

Kimi的Scaling策略

杨植麟认为,将Kimi的进化逻辑归纳为Token效率、长上下文以及智能体集群“合体”。刚刚上线的Kimi K2.6,可以理解为杨植麟在这条Scaling路径下新交的一份作业。

Kimi官网已接入K2.6

01

代码、Agent,还有呢?

作为最容易标准化的能力项之一,代码是前沿模型的必争之地。

从K2、到K2.5、再到K2.6,Kimi在几个开源模型上保持着平均一个季度左右的迭代节奏,但由于这是个小版本号,暗示杨植麟手中可能还有更多的底牌。

“K2.6长程编码能力显著提升,在测试中可以不间断编码13小时,编写或修改超过4000行代码,”Kimi在一份传播材料中写道,“在涵盖了多种复杂端到端任务的、Kimi内部严格代码评测基准Kimi Code Bench中,K2.6的成绩比K2.5提升了约20%。”

要知道K2.5已经是一个非常“能打的模型”,OpenRouter上2月份一度霸榜。一位接近Kimi的知情人士贴出了联合创始人张宇韬发当时在朋友圈的截图,“他貌似对这个版本很满意。”

通用Agent、编程和视觉Agent基准测试上,K2.6的表现

对OpenClaw、Hermes这类Agent框架,K2.6的核心提升集中在API调用的精准性和长时间运行的稳定性——一个是提升任务执行的成本,一个则是优化任务执行的销效率。

1月份上线的K2.5当中,Kimi提出了“Agent集群”的概念,将一项任务拆分成多个子项目,自动化分配给不同领域的Agent来跟进处理,进而缩短任务处理的失效,同时避免串行任务流下整个项目崩溃的可能性。

Kimi K2.6的Agent集群能力演示

在新的K2.6版本中,这个能力被进一步放大,将广度搜索与深度调研、大规模文档分析与长篇撰写以及多格式内容生成进行集成与并行处理,最多支持300个子Agent并行完成4000个协作步骤。

如果要一句话概括Kimi K2.6亮点,大致包括:代码和长程任务能力进化、Agent集群能力进化与主流Agent框架适配优化。

如果要从上述的功能特性里面找一个个人的偏好,我认为Agent集群是最有价值的一个能力,它直接将并行计算爆炸性能力具象化了——无论是代码,还是长程任务的稳定性,这些都是模型迭代必须去做的事情,更重要的是,基于这些能力提升,推动Agent的工作方式、效率甚至是交互方式创新。

毕竟,作为用户,我要的不是它告诉我能怎么样,而是它能驱动Agent来解决我实实在在的问题,形成有效生产力。

K2.5上线的时候,一位学界研究员开始利用这款模型开展科研项目,当时他的评价是没有短板,可以作为科研助手。

“官方提供的多Agent确实有效,去年国产的Agent很多还是toy。”

如果Kimi K2.5在内外部评价都不错,在这个基础上更进一步的K2.6,效果会如何呢?

Artifacial Analysis智能榜单,Kimi K2.6仅次于三家闭源模型,并领跑开源模型权重榜单

02

路线图里的“新故事”

Kimi总是时不时给行业搞点新意思,其中就包括杨植麟演讲中路线图里提到MuonClip、Kimi Linear、Attention Residuals,一些探索也得到了行业顶流的正向打Call。

3月中旬,Kimi发布Attention Residuals这篇论文,提出利用注意力机制来改造残差连接,马斯克直接发推称这是“Kimi做得令人印象深刻的突破。”

上周末,Kimi发布了一篇新论文《Prefill-as-a-Service: KVCache of Next-Generation Models Could Go Cross-Datacenter》,(PrfaaS,预填充即服务),提及Kimi在架构上的新探索,核心讨论的仍然PD分离(Prefill和Decode)。

PD分离并不是新话题——模型推理的Prefill阶段属于计算密集任务,Decode阶段则依赖显存带宽,显存要来回读写KV Cache——这种架构要解决的是将计算密集型任务和带宽密集型任务解耦,提高算力利用率和吞吐量,进而降本增效。

PD分离虽好,但也有一个卡点:必须基于同机房的RDMA高速网络。

Kimi的PrfaaS这篇论文,核心点在于:基于混合模型(Kimi Linear)大幅缩减了KV缓存体积,然后把Prefill和Decode彻底解耦到不同的异构集群。

论文提及的实验示例显示,PrfaaS专用预填充集群使用32张主打高算力的H200;本地PD解码集群使用64张通过RDMA内网互联的H20 GPU;两组集群通过VPC专线打通,跨集群总带宽约100Gbps。测试模型为1T参数的Kimi Linear混合注意力模型。

实测结果显示,PrfaaS‑PD跨数据中心方案,相比采用96卡H20同PD集群方案,吞吐量提升54%,P90 TTFT(90%的用户,从发请求到看到第一个字返回的等待时间)从9.73s降至3.51s,降低64%,跨数据中心 KV缓存传输带宽仅占用总带宽100Gbps中13%。

不同上下文长度下,混合架构模型与稠密模型KV吞吐量对比

为了证明混合模型架构的优势,论文提到一组实验:8卡H200和SGLang v0.5.9推理框架下,对多款主流模型进行基准测试,32K上下文长度时,采用混合注意力的MiMo‑V2‑Flash模型KV 吞吐量仅4.66Gbps,而同规模稠密注意力模型MiniMax‑M2.5高达59.93Gbps,直接证明混合注意力架构可将KV缓存传输需求压至普通以太网可承载范围。

“跨数据中心+异构硬件,解锁显著降低单token成本的潜力。”Kimi在官方账号上说。

关于Token降本,我在《人民想念DeepSeek》这篇里就提到过,模型、硬件层面都优化的空间,上海财经大学胡延平教授特地发了一条朋友圈,强调降本这件事不能只靠一个DeepSeek,“问题的解决取决于算力供给的成本效率、模型素质的跨代提升、智能范式的持续进阶、工作流和场景拉通的放大效应等。”

这个角度看,Kimi又给行业讲了一个Token降本的新故事。

03

中国模型召唤中国芯片

在预填充即服务这篇论文里,更多的人只注意到了跨数据中心这个叙事,而忽略了异构硬件这一点。

需要注意,H200和H20在芯片架构上仍然是Hopper架构,论文提到的异构代指带宽、算力上的异构,它的启示在于:我们可以用一部分算力强的国产卡来做Prefill,或者带宽强的国产卡来做Decode,当然也可以与海外卡混用来实现降本增效。

可以说,这是Kimi为中国芯片打开的一扇大模型推理的大门。

在一位国产算力人士看来,要接住预填充即服务这种方案带来的这波流量利好,依旧不得不面生态这个老问题。

过去几年,中国大模型一直因为生态难题被卡在国产算力之外,但还有另一个不被注意的细节:H20这样的产品,已经断供一年了。换句话说,推理芯片短期内只有国产一个选项。

随着推理需求暴涨,相比于供给,生态挑战将切换为次要问题——中国大模型对国产算力的依赖从过去可用可不用,转变为不得不用。也是因为这一点,很多预测都在讨论DeepSeek V4正在适配国产算力。

我和胡延平老师在《给DeepSeek的最后一封催更信》中说,适配国产算力,这条路对国产模型来说非常艰难,但从更长远的时间来看又不得不做。一件不得不做的事情,总要有起点,或许DeepSeek V4就是那个起点。

现在,DeepSeek V4还没有来,而Kimi已经用自己的实践,为中国模型+中国芯片的合体,探索了一条可行的路径。

Kimi率先作为模型代表深处橄榄枝,问题现在交给了国产芯片创业公司。

大家还记得在《the Dwarkesh Podcast》最新的播客中,被问及禁止中国出口芯片时黄仁勋的反应吗?他说,芯片又不是铀浓缩,禁售阻挡不了中国芯片的进步,他们依旧可以通过国产芯片暴力堆叠来开发模型。

为什么黄仁勋这样说?DeepSeek和Kimi的下一步,就是标准答案。

更多热门内容
“稚晖君”彭志辉正式出任上纬新材董事长
近日,上纬新材料科技股份有限公司完成工商变更登记,核心人事变动落定。原董事长蔡朝阳卸任法定代表人及董事长职务,田华接任法定代表人,智元机器人联合创始人、CTO彭志辉(网名“稚晖君”)正式出任公司董事长。此次人事调整早有铺垫。2025年11月25日,上纬新材召开202

2026-05-26

董明珠谈女性职场:无需因性别示弱 成功源于坚持
5月22日,以“新质生产力特别公开课:中国智造与格力实践”为主题的特别课堂在清华大学举行,董明珠受邀出席,并围绕女性职场发展、个人成长以及企业责任等话题进行了分享。谈到女性在职场中的发展时,董明珠表示,女性无需因性别示弱,职场中核心是实力与原则。她鼓励

2026-05-26

具脑磐石亿元融资背后:类脑智能驱动,具身智能迈向认知新阶段
这一从算法到系统的推进方式,也构成了具脑磐石对具身智能2.0的理解:不是让机器人在演示中完成更多动作,而是让机器人真正具备接近人类大脑的认知能力——从少量经验中学习抽象规律,在复杂环境中持续感知和记忆,并在…

2026-05-26

阿里达摩院玄铁9系列处理器适配安卓16,RISC - V迈向规范兼容与产品化新阶段
阿里达摩院玄铁团队近日宣布,其研发的玄铁9系列高性能处理器已成功完成对Android 16操作系统的适配工作,并正式向战略合作伙伴推出玄铁安卓平台。这一突破性进展标志着RISC-V架构在安卓生态系统中实现了从技术验证到规模化应用的跨越,为智能终端设备的创新发展开辟了

2026-05-26

雷军晒小米汽车电池极限测试:等效40万公里,针刺后不泄漏不起火不爆炸
5月25日消息,小米创办人、董事长兼 CEO 雷军发布了小米汽车电池的极限测试视频。他表示,小米电池安全测试项目多达 1230项,采用行业极为严苛测试标准。 该极限测试视频展示了等效 40 万公里的磷酸铁锂…

2026-05-26

金龙汽车5月25日跌4.53% 近5日主力净流出超七千万 业务布局多元
(免责声明:分析内容来源于互联网,不构成投资建议,请投资者根据不同行情独立判断) 主营业务收入构成为:汽车及车身件94.89%,其他(补充)5.11%。2026年1月-3月,金龙汽车实现营业收入57.61亿元…

2026-05-26

石头科技吸尘器主机外观设计专利获批,技术创新引领清洁设备新潮流
根据数据显示,公司新获得的专利授权数量已达到174个,较去年同期增长了26.09%。这一增长不仅反映了公司在技术研发上的持续投入,也彰显了其在行业中的竞争力。石头科技在清洁设备领域的技术研发与专利布局,显示出…

2026-05-26

速腾聚创携手石头科技:以激光雷达技术赋能,共促割草机器人全球普及
来源:市场资讯 (来源:界面新闻) 5月25日,RoboSense。双方将基于割草机器人领域的合作基础,以数字化激光雷达技术,推动石头科技新一代割草机器人加速智能化升级,共同促进割草机器人在全球市场的规模化应…

2026-05-26