在人工智能的激烈竞争中,阿里云再一次发力,正式推出了其
Qwen3-Max-Instruct 版本在代码能力和智能体表现上都有了质的飞跃,特别是在知识推理、编程能力、指令遵循和多语言理解等多个领域,Qwen3-Max 的表现均处于行业领先水平。阿里云的通义团队还透露,另一个正在训练中的版本 Qwen3-Max-Thinking 已展现出非凡的潜力,预计很快将与公众见面。这个 「思考」 版本在一些高难度的推理测试中取得了 100% 的准确率,显示了其出色的推理能力。
在训练方面,Qwen3-Max 模型的预训练使用了 36 万亿个 tokens,得益于其独特的 MoE 模型结构设计,训练过程稳定且高效。通过 PAI-FlashMoE 的优化,Qwen3-Max 的训练效率显著提高,能够支持长达 1M 的上下文训练。同时,阿里云还通过多种技术手段降低了因硬件故障带来的时间损失,确保了训练的高效进行。
在实际应用中,Qwen3-Max-Instruct 已在 LMArena 的文本排行榜上稳居全球前三,超越了知名的 GPT-5-Chat。在专注于现实编程挑战的基准测试 SWE-BenchVerified 中,Qwen3-Max-Instruct 取得了 69.6 的高分,显示了其卓越的编程能力。而在智能体工具调用能力的测试 Tau2-Bench 中,Qwen3-Max-Instruct 也以 74.8 分的优异成绩,成功超越了 ClaudeOpus4 和 DeepSeek-V3.1。
可以说,阿里云的 Qwen3-Max 不仅在技术参数上领先,更在应用性能上展现了强大的能力,为人工智能的未来发展注入了新的动力。










