ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

摩尔线程Torch-MUSA v2.0.0升级,国产GPU原生支持FP8引关注

时间:2025-05-09 19:33:39来源:ITBEAR编辑:快讯团队

国产GPU制造商摩尔线程近期宣布,其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA,已成功升级到v2.0.0版本。这一重大更新标志着摩尔线程在加速AI计算领域迈出了重要一步。

通过Torch-MUSA v2.0.0,用户只需简单地将设备指定为torch.device("musa"),便能轻松地将现有的PyTorch模型迁移至MUSA架构的GPU上运行,无需对代码进行大规模修改。更令人振奋的是,Torch-MUSA已全面开源,开发者可以通过GitHub轻松获取其源代码。

此次升级的核心亮点在于,Torch-MUSA v2.0.0在国产GPU上首次实现了对FP8数据类型的全面支持。FP8作为一种低精度格式,在支持该格式的GPU上,大语言模型的训练采用FP8混合精度可以显著提升GPU的算力,并大幅度降低显存的占用。

摩尔线程的新一代MUSA Compute Capability 3.1计算架构全功能GPU原生支持FP8计算,这为Torch-MUSA v2.0.0实现FP8矩阵乘法和分布式通信优化提供了坚实的基础。借助这一底层架构的优势,Torch-MUSA v2.0.0能够充分发挥FP8的计算效能,从而显著提高大语言模型的训练和推理效率。

除了对FP8的支持外,Torch-MUSA v2.0.0还在MUSA计算平台上引入了多项创新功能,旨在进一步提升深度学习任务的执行效率。其中,新增的虚拟内存管理技术能够有效解决GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,尤其适用于FSDP、DeepSpeed和Megatron-LM等主流的大模型训练框架。

Torch-MUSA v2.0.0还引入了MUSA Graph技术,该技术将多个MUSA内核整合到一个图中,通过减少CPU的调度次数来降低启动开销,从而提升计算效率。同时,该技术还与CUDA Graph接口实现了高效兼容。

为了进一步提升性能,Torch-MUSA v2.0.0还为torch.compile增加了Triton后端支持。这意味着开发者可以直接使用PyTorch的原生接口,从而获得更高效的性能表现。

Torch-MUSA v2.0.0在全面支持PyTorch 2.2.0的基础上,还新增了对PyTorch 2.5.0的支持。这使得开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上无缝运行新版本的PyTorch,从而享受更多的功能和性能优化。

随着AI技术的不断发展,摩尔线程表示,Torch-MUSA未来将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch,以满足开发者对性能和功能不断提升的需求。

Torch-MUSA v2.0.0的发布,不仅展示了摩尔线程在GPU技术研发方面的实力,也为AI开发者提供了更加高效、灵活的深度学习解决方案。

随着摩尔线程在GPU领域的不断探索和创新,我们有理由相信,未来的Torch-MUSA将为AI计算带来更多的惊喜和突破。

更多热门内容
松下控股全球大裁员,1万岗位或将消失,转型之路何去何从?
据报道,松下控股日前宣布将裁减 1 万人,涉及日本与海外员工各 5000 名,通过募集自愿提前退休等方式,计划在 2029 年 3月前完成裁员。 截至 2024 年 3 月底,松下集团的全球员工总数约为 2…

2025-05-09