PyTorch 2.8 重磅发布:量化 LLM 推理性能飞跃,Intel GPU 支持来袭!

近日,机器学习框架 PyTorch 迎来了全新版本 2.8 的正式发布。这一版本的发布备受关注,主要集中在提升量化) 的推理性能,尤其是在 IntelCPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率,还首次实验性支持了 IntelGPU 的分布式后端。

在 PyTorch2.8 中,开发者们通过优化算法和引入新技术,使得量化 LLM 的推理速度大幅提升。具体来说,该版本支持多种量化模式,包括 A16W8、DA8W8 和 A16W4 等。测试数据显示,在 Intel 的第六代 Xeon 平台上,以 M=8、K 和 32 核心为条件运行 Llama-3.1-8B 模型时,端到端延迟减少了 20% 以上,性能甚至可与一些热门的 LLM 服务框架媲美。

此外,本次更新的另一亮点是,PyTorch2.8 为 Intel 离散 GPU 引入了 XCCL 分布式后端的实验性支持。这一功能为不同的训练模式提供了更多的灵活性,开发者能够在更广泛的硬件环境中发挥模型的潜力。

除了以上核心功能的增强,PyTorch2.8 还包括一系列重要的改进。例如,SYCL 支持的引入使得 PyTorch 的 C++扩展 API 功能更加丰富,同时 XPU 设备也新增了对 A16W4 模式的支持。此外,开发团队为 libtorchABI 提供了稳定的接口,减少了在第三方 C++/CUDA 扩展中的兼容性问题。

针对 ROCm 的支持也得到了增强,增加了对 gfx950 架构的支持,并结合 TorchInductor 和 AOTInductor,提供了多个内核的自动调优模板。此外,控制流操作的引入,如条件判断、循环等,使得模型的编译和导出变得更加高效。

PyTorch2.8 的发布无疑为机器学习领域带来了更多可能性,也为开发者提供了更强大的工具,推动了大语言模型的应用和发展。

下载地址:https://github.com/pytorch/pytorch/releases/tag/v2.8.0

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

谷歌推出新编程工具 Jules,支持异步处理任务并集成 GitHub

2025-8-8 1:21:30

AI 资讯

AI agents 支付新突破:Lava Payments 获 580 万美元种子轮融资,打造" 一键通付" 数字钱包

2025-8-9 1:20:36

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索