微软 Azure ND GB300 再创记录:每秒推理速度达 110 万 token

微软近日宣布,其 AzureNDGB300v6 虚拟机在 的 Llama270B 模型上实现了每秒推理速度达 110 万 token 的行业新纪录。微软首席执行官萨提亚・纳德拉在社交媒体上表示:「这一成就是我们与长期合作和在生产规模运行方面专业知识的结晶。」

AzureNDGB300 虚拟机采用英伟达的 BlackwellUltraGPU,具体为 NVIDIAGB300NVL72 系统,配置了 72 个 NVIDIABlackwellUltraGPU 和 36 个 NVIDIAGraceCPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有 50% 的 GPU 内存提升和 16% 的热设计功率 (TDP) 提高。

为了验证性能提升,微软在一个 NVIDIAGB300NVL72 域下的 18 台 NDGB300v6 虚拟机上运行了 Llama270B(FP4 精度) 模型,使用 NVIDIATensorRT- 作为推理引擎。微软表示:「一个 NVL72 机架的 AzureNDGB300v6 实现了总计 110 万个 token 每秒的推理速度。」 这一新记录超越了微软之前在 NVIDIAGB200NVL72 机架上实现的 865,000token 每秒的成绩。

根据系统配置,每个 GPU 的性能大约为 15,200token 每秒。微软还提供了详细的模拟过程和所有日志文件及结果。该性能记录经过了独立的性能验证和基准测试公司 Signal65 的验证。

Signal65 的实验室副总裁拉斯・费洛斯在博客中指出:「这一里程碑不仅突破了每秒百万 token 的障碍,还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。」 他补充道,AzureNDGB300 相较于上一代 NVIDIAGB200 在推理性能上提升了 27%,而仅增加了 17% 的功率规格。与 NVIDIAH100 代相比,GB300 在推理性能上几乎提升了 10 倍,同时在机架级别的功率效率上提高了近 2.5 倍。

划重点:

🚀微软 AzureNDGB300v6 虚拟机实现每秒推理 110 万 token,创造行业新纪录。

💻该虚拟机配置 72 个 NVIDIABlackwellUltraGPU 和 36 个 NVIDIAGraceCPU,专为推理优化。

📈相比上一代,AzureNDGB300 在推理性能上提升 27%,功率效率提升近 2.5 倍。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

苹果 Siri 将大变样!付费请谷歌助力 AI 升级

2025-11-5 1:20:43

AI 资讯

​现代汽车与英伟达携手打造 30 亿美元人工智能工厂

2025-11-5 1:20:59

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索