PyTorch 2.8 重磅发布：量化 LLM 推理性能飞跃，Intel GPU 支持来袭！

AI 资讯
25 年 8 月 9 日
编辑

小强

近日，开源机器学习框架 PyTorch 迎来了全新版本 2.8 的正式发布。这一版本的发布备受关注，主要集中在提升量化大语言模型（LLM）的推理性能，尤其是在 IntelCPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率，还首次实验性支持了 IntelGPU 的分布式后端。

在 PyTorch2.8 中，开发者们通过优化算法和引入新技术，使得量化 LLM 的推理速度大幅提升。具体来说，该版本支持多种量化模式，包括 A16W8、DA8W8 和 A16W4 等。测试数据显示，在 Intel 的第六代 Xeon 平台上，以 M=8、K 和 32 核心为条件运行 Llama-3.1-8B 模型时，端到端延迟减少了 20% 以上，性能甚至可与一些热门的 LLM 服务框架媲美。

此外，本次更新的另一亮点是，PyTorch2.8 为 Intel 离散 GPU 引入了 XCCL 分布式后端的实验性支持。这一功能为不同的训练模式提供了更多的灵活性，开发者能够在更广泛的硬件环境中发挥模型的潜力。

除了以上核心功能的增强，PyTorch2.8 还包括一系列重要的改进。例如，SYCL 支持的引入使得 PyTorch 的 C++扩展 API 功能更加丰富，同时 XPU 设备也新增了对 A16W4 模式的支持。此外，开发团队为 libtorchABI 提供了稳定的接口，减少了在第三方 C++/CUDA 扩展中的兼容性问题。

针对 ROCm 的支持也得到了增强，增加了对 gfx950 架构的支持，并结合 TorchInductor 和 AOTInductor，提供了多个内核的自动调优模板。此外，控制流操作的引入，如条件判断、循环等，使得模型的编译和导出变得更加高效。

PyTorch2.8 的发布无疑为机器学习领域带来了更多可能性，也为开发者提供了更强大的工具，推动了大语言模型的应用和发展。

下载地址：https://github.com/pytorch/pytorch/releases/tag/v2.8.0

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

PyTorch 2.8 重磅发布：量化 LLM 推理性能飞跃，Intel GPU 支持来袭！

谷歌推出新编程工具 Jules，支持异步处理任务并集成 GitHub

AI agents 支付新突破：Lava Payments 获 580 万美元种子轮融资，打造" 一键通付" 数字钱包

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

谷歌推出新编程工具 Jules，支持异步处理任务并集成 GitHub

AI agents 支付新突破：Lava Payments 获 580 万美元种子轮融资，打造" 一键通付" 数字钱包

腾讯元宝 —— 基于混元大模型的 AI 助手新势力

​Figma 推出新工具，助力 AI 更精准地转换设计为代码

文档解析 LLM MonkeyOCR 震撼登场:3B 小模型完胜 Gemini

火山引擎正式发布​豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Figma 推出新工具，助力 AI 更精准地转换设计为代码

火山引擎正式发布豆包大模型 1.6 和豆包·视频生成模型 Seedance 1.0 pro