ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

DeepSeek v3.2新动作:拥抱国产TileLang语言,适配国产算力生态获多方支持

时间:2025-09-30 10:33:23来源:互联网编辑:快讯

DeepSeek最新发布的v3.2版本中,一个未在论文中详细阐述的技术细节引发了广泛关注——开源TileLang版本算子的引入。该技术虽仅在官方公告中短暂提及,却凭借其显著优势迅速成为开发者热议的焦点,其受关注程度甚至超越了同期推出的新稀疏注意力机制DSA。

海外开发者社区同样注意到了这一变化。与传统使用OpenAI开发的Triton语言不同,DeepSeek选择了TileLang作为开发工具。有开发者反馈称,TileLang以其简洁优雅的设计令人印象深刻,仅用不到100行代码便实现了比Flash Attention 2原版快30%的注意力机制。

TileLang的定位是一种面向GPU内核开发的领域专用语言,其性能可与英伟达CUDA相媲美。该语言采用Python式语法,基于TVM编译器构建底层架构,通过将调度空间与数据流解耦,使开发者能够专注于算法逻辑,而将内存布局、线程绑定等底层优化工作交给编译器自动完成。这种设计显著降低了高性能内核的开发门槛。

该语言的另一大优势在于与国产算力生态的深度适配。华为昇腾在DeepSeek发布后第一时间宣布了对TileLang的支持,沐曦集成电路也参与了相关适配工作。在华为全联接大会2025开发者日上,TileLang团队展示了其将FlashAttention算子开发代码量从500余行缩减至80行的成果,同时保持了与官方版本相当的性能表现。

TileLang的研发团队以北京大学计算机学院为核心,包括副研究员杨智、博士研究生王磊及董宇骐等成员。2025年1月,该语言在GitHub开源后迅速获得1.9k标星。其核心设计理念是将"Tile"作为编程模型的核心概念,通过显式抽象控制数据在全局内存、共享内存和寄存器之间的流动,并提供从硬件无关高层接口到线程原语底层控制的完整编程接口体系。

DeepSeek与TileLang的渊源可追溯至2025年6月的北京智元大会。当时在DeepSeek实习的北大博士袁境阳在报告中提及TileLang的算子实现效率优势,引发团队关注。此后,TileLang团队以DeepSeek发布的FlashMLA内核为基准进行测试,结果显示在H100显卡上,TileLang编写的内核解码速度与FlashMLA相当,验证了其在实际应用中的可行性。

在v3.2版本中,DeepSeek团队采用TileLang进行快速原型开发,随后通过更底层的方法进一步优化性能。技术报告显示,通过内核层面共享k-v缓存的设计,配合DSA闪电索引器机制,显著提升了计算效率。TileLang文档中强调的中间数据缓存策略,正是实现这一性能突破的关键技术之一。

TileLang团队成员王磊在多个技术场合分享了该语言的设计哲学。其核心在于通过可自定义的注解和原语,将内存布局、张量化等优化工作封装为编译器功能,使开发者能够像编写高级语言一样开发高性能内核。这种设计理念在DeepSeek v3.2的实际应用中得到了充分验证,证明了TileLang不仅能够用于算法原型开发,更能支撑大规模模型训练的实际需求。

相关技术资料显示,TileLang的GitHub仓库提供了完整的技术文档和示例代码,DeepSeek v3.2的技术报告则详细阐述了TileLang在实际模型训练中的应用效果。开发者可通过以下链接获取更多信息:

DeepSeek V3.2技术报告:https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

TileLang开源项目:https://github.com/tile-ai/tilelang

更多热门内容
莫斯科国立大学与南洋理工大学博士后科研成果竞争力特色对比分析
这种国际化的学术环境为博士后研究人员提供了丰富的学术资源和交流机会,有助于提升他们的学术竞争力和国际视野。科研成果的转化与应用:南洋理工大学在科研成果的转化和应用方面更为突出,注重与产业界的合作,将研究成果转…

2025-09-30

​嘉兴高速国庆前夕启用无人机蜂巢巡检系统 空地结合守护出行路​
(来源:嘉兴日报) 转自:嘉兴日报 昨天,一架无人机从桐乡屠甸高速收费站机巢起飞,按照预定路线对高速公路进行巡视。 国庆前夕,浙江省交通集团高速公路嘉兴管理中心首次投用6套具备自动起降、巡航与喊话功能的无人机…

2025-09-30