PyTorch 2.8发布：LLM推理性能大幅提升，Intel GPU分布式后端实验性支持上线-人工智能-ITBear科技资讯

PyTorch，这一广受欢迎的开源机器学习框架，近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型（LLM）在Intel CPU上的推理性能，吸引了众多开发者和研究人员的目光。

在PyTorch 2.8中，开发者团队通过算法优化和技术革新，显著提高了量化LLM的推理速度。新版本支持多种量化模式，诸如A16W8、DA8W8及A16W4等，为开发者提供了更多选择。据测试数据显示，在Intel第六代Xeon平台上运行Llama-3.1-8B模型时，PyTorch 2.8实现了超过20%的端到端延迟降低，其性能表现甚至能够媲美一些主流LLM服务框架。

PyTorch 2.8还首次为Intel离散GPU引入了XCCL分布式后端的实验性支持。这一新功能的加入，为开发者在不同训练模式下的应用提供了更大的灵活性，使得模型能够在更多样化的硬件环境中发挥出色性能。

PyTorch 2.8还包含了一系列其他重要改进。其中，SYCL支持的引入进一步丰富了PyTorch的C++扩展API功能，而XPU设备也新增了对A16W4模式的支持。开发团队还为libtorch ABI提供了稳定接口，有效减少了第三方C++/CUDA扩展中的兼容性问题，为开发者带来了更多便利。

针对ROCm的支持也得到了显著提升，PyTorch 2.8增加了对gfx950架构的支持，并结合TorchInductor和AOTInductor，提供了多个内核的自动调优模板。同时，新版本还引入了条件判断、循环等控制流操作，使得模型的编译和导出过程更加高效，进一步提升了开发效率。

PyTorch 2.8的发布，无疑为机器学习领域注入了新的活力，为开发者提供了更加强大的工具。这一版本的诸多改进和创新，将有力推动大语言模型的应用和发展，为人工智能领域带来更多可能性。

感兴趣的开发者可以前往PyTorch的官方GitHub页面下载最新版本：https://github.com/pytorch/pytorch/releases/tag/v2.8.0。