微软 Azure ND GB300 再创记录：每秒推理速度达 110 万 token

AI 资讯
25 年 11 月 5 日
编辑

小强

微软近日宣布，其 AzureNDGB300v6 虚拟机在 Meta 的 Llama270B 模型上实现了每秒推理速度达 110 万 token 的行业新纪录。微软首席执行官萨提亚・纳德拉在社交媒体上表示:「这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。」

AzureNDGB300 虚拟机采用英伟达的 BlackwellUltraGPU，具体为 NVIDIAGB300NVL72 系统，配置了 72 个 NVIDIABlackwellUltraGPU 和 36 个 NVIDIAGraceCPU，采用单机架构设计。这款虚拟机专为推理工作负载优化，具有 50% 的 GPU 内存提升和 16% 的热设计功率（TDP）提高。

为了验证性能提升，微软在一个 NVIDIAGB300NVL72 域下的 18 台 NDGB300v6 虚拟机上运行了 Llama270B（FP4 精度）模型，使用 NVIDIATensorRT-LLM 作为推理引擎。微软表示:「一个 NVL72 机架的 AzureNDGB300v6 实现了总计 110 万个 token 每秒的推理速度。」这一新记录超越了微软之前在 NVIDIAGB200NVL72 机架上实现的 865，000token 每秒的成绩。

根据系统配置，每个 GPU 的性能大约为 15，200token 每秒。微软还提供了详细的模拟过程和所有日志文件及结果。该性能记录经过了独立的性能验证和基准测试公司 Signal65 的验证。

Signal65 的实验室副总裁拉斯・费洛斯在博客中指出:「这一里程碑不仅突破了每秒百万 token 的障碍，还在一个能够满足现代企业动态使用和数据治理需求的平台上实现。」他补充道，AzureNDGB300 相较于上一代 NVIDIAGB200 在推理性能上提升了 27%，而仅增加了 17% 的功率规格。与 NVIDIAH100 代相比，GB300 在推理性能上几乎提升了 10 倍，同时在机架级别的功率效率上提高了近 2.5 倍。

划重点:

🚀微软 AzureNDGB300v6 虚拟机实现每秒推理 110 万 token，创造行业新纪录。

💻该虚拟机配置 72 个 NVIDIABlackwellUltraGPU 和 36 个 NVIDIAGraceCPU，专为推理优化。

📈相比上一代，AzureNDGB300 在推理性能上提升 27%，功率效率提升近 2.5 倍。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

微软 Azure ND GB300 再创记录：每秒推理速度达 110 万 token

苹果 Siri 将大变样！付费请谷歌助力 AI 升级

现代汽车与英伟达携手打造 30 亿美元人工智能工厂

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

苹果 Siri 将大变样！付费请谷歌助力 AI 升级

​现代汽车与英伟达携手打造 30 亿美元人工智能工厂

特斯拉语音助手接入火山引擎与 DeepSeek 大模型 智能座舱体验全面升级

阿里开源 Mobile-Agent 3：强大的 GUI 代理家族

DeepSeek V3.1 被曝 「极字 Bug」:API 调用惊现神秘字符，官方已回应

​腾讯开源智能体框架 Youtu-agent：几句 YAML 就能让 AI 上网搜资料、整理文件

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

现代汽车与英伟达携手打造 30 亿美元人工智能工厂

特斯拉语音助手接入火山引擎与 DeepSeek 大模型智能座舱体验全面升级

DeepSeek V3.1 被曝「极字 Bug」:API 调用惊现神秘字符，官方已回应

腾讯开源智能体框架 Youtu-agent：几句 YAML 就能让 AI 上网搜资料、整理文件