PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。
在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了量化LLM的推理速度。新版本支持多种量化模式,诸如A16W8、DA8W8及A16W4等,为开发者提供了更多选择。据测试数据显示,在Intel第六代Xeon平台上运行Llama-3.1-8B模型时,PyTorch 2.8实现了超过20%的端到端延迟降低,其性能表现甚至能够媲美一些主流LLM服务框架。
PyTorch 2.8还首次为Intel离散GPU引入了XCCL分布式后端的实验性支持。这一新功能的加入,为开发者在不同训练模式下的应用提供了更大的灵活性,使得模型能够在更多样化的硬件环境中发挥出色性能。
PyTorch 2.8还包含了一系列其他重要改进。其中,SYCL支持的引入进一步丰富了PyTorch的C++扩展API功能,而XPU设备也新增了对A16W4模式的支持。开发团队还为libtorch ABI提供了稳定接口,有效减少了第三方C++/CUDA扩展中的兼容性问题,为开发者带来了更多便利。
针对ROCm的支持也得到了显著提升,PyTorch 2.8增加了对gfx950架构的支持,并结合TorchInductor和AOTInductor,提供了多个内核的自动调优模板。同时,新版本还引入了条件判断、循环等控制流操作,使得模型的编译和导出过程更加高效,进一步提升了开发效率。
PyTorch 2.8的发布,无疑为机器学习领域注入了新的活力,为开发者提供了更加强大的工具。这一版本的诸多改进和创新,将有力推动大语言模型的应用和发展,为人工智能领域带来更多可能性。
感兴趣的开发者可以前往PyTorch的官方GitHub页面下载最新版本:https://github.com/pytorch/pytorch/releases/tag/v2.8.0。