SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程-业界动态-ITBear科技资讯

近日，一场聚焦国产GPU与开源生态协同发展的技术盛会在北京拉开帷幕。由摩尔线程与SGLang社区联合主办的“MUSA开源技术沙龙｜SGLang × MUSA Meetup”吸引了近百位前沿开发者到场，TileLang、Triton、Mooncake等开源社区的顶尖技术专家齐聚一堂，围绕大模型推理引擎、算子编译、工程优化等核心议题展开深度交流。

作为MUSA后端正式融入SGLang主线后的首次线下技术活动，此次盛会成为国产GPU深度参与全球主流开源框架生态共建的重要里程碑。开发者在运行大语言模型及多模态推理任务时，可直接调用摩尔线程全功能GPU，无需依赖第三方适配层，标志着国产算力与国际主流推理框架的协同进入“原生支持”新阶段。

摩尔线程CTO张钰勃在开场致辞中深入阐释了MUSA统一系统架构的设计理念。他强调，公司始终以通用计算为初心，通过高度统一的底层计算平台支撑未来技术演进，同时以全产品线统一的指令集与架构标准，为软件生态的持续沉淀提供保障。针对开发者关注的生态迁移问题，他表示MUSA在接口设计上充分复用现有GPU编程习惯，力求实现零学习成本融入现有生态，此次获得SGLang官方支持正是开放理念的重要实践。

技术分享环节，五大核心议题贯穿推理框架到算子内核的全链条。SGLang核心开发成员Xiaoyu Zhang（BBuf）详细解析了框架演进路线，包括支撑DeepSeek-V4等模型的分层缓存机制、Zero‑overhead Speculative Decoding技术，以及算子层从sgl‑kernel包向Jit‑kernel体系的迁移。他透露，摩尔线程MUSA已正式纳入SGLang硬件适配核心阵列，双方将深化原生算子支持。

摩尔线程Contributor ROCKSTAR展示了SGLang在MUSA平台上的工程落地实践。通过torchada适配层，开发者现有CUDA代码可无缝运行在摩尔线程GPU上，大幅降低适配成本。MATE算子库提供的高性能Attention与GEMM算子，已对接主流接口，支持DeepSeek、Qwen等主流大模型及视频生成模型实现“开箱即用”。截至活动举办时，摩尔线程已在SGLang主线提交47个PR，其中41个已合入，完成全链路打通。

北京智源人工智能研究院AI编译器研究员肖航聚焦Triton关键算子优化及其在MUSA平台上的适配。他介绍的FlagOS统一开源软件栈已涵盖超497个算子，通过FlagTree编译器与Triton-TLE语言扩展实现跨芯片高性能算子生成。在DeepSeek-V4适配中，专用张量加速引擎与调优方案使TTFT时延降低56.7%，吞吐量提升65.7%，为国产GPU构建起更高效的算力应用生态。

TileLang Maintainer唐正举探讨了TileLang在化解算子硬件依赖与性能调优上的优势。通过显式控制计算与数据搬运基本单元，开发者可用极简代码实现极致性能，例如用约50行代码写出比肩FlashAttention专家库的kernel。DeepSeek-V4已在训练中采用其编写核心kernel，达到硬件峰值性能。TileLang正与MUSA生态深度联调，未来将围绕分布式算子编程等新项目持续发力。

Mooncake Contributor马腾分享了训推一体系统与SGLang的结合实践。其核心传输引擎通过零拷贝RDMA与多协议支持实现高吞吐超低延迟，KV Cache Store统一池化异构存储降低推理成本。在弹性EP架构中，系统支持故障节点动态摘除与Expert映射调整，大幅提升集群容错能力。摩尔线程作为核心Maintainer之一，深度参与多节点通信协议等关键特性共建。

圆桌讨论环节，六位技术专家围绕“生态共建与工程化破局”展开深度对话。针对开源技术创新与国产硬件生态复杂度加剧的挑战，嘉宾们提出多项建议：建立更干净的硬件抽象、坚持接口兼容与底层创新并重、平衡可编程性与极致性能、以Tile抽象连接模型算子硬件、沉淀最佳实践与端到端场景验证。各方一致认为，未来应优先建立统一抽象边界、标准化适配接口与共享基准测试体系，推动国产AI软硬件生态协同突破。

此次技术盛会的成功举办，标志着国产GPU与全球顶级推理框架的协同从“代码共建”迈向“生态共聚”。通过与多个开源社区的紧密协作，摩尔线程不仅推动MUSA平台与主流AI框架深度适配，更以实际行动赋能开发者，持续助力国产算力融入全球开源生态，加速AI应用的创新与落地。

SGLang×MUSA Meetup成功举办 国产GPU与开源生态携手共进新征程

SGLang×MUSA Meetup成功举办国产GPU与开源生态携手共进新征程