核心亮点: 动态推理与 MoE 架构
「混元-A13B」 的核心优势在于其**实时调整推理深度**的能力。对于简单的查询,模型会启用**快速模式**,以最少的推理步骤迅速响应; 而面对更复杂的问题,它则能激活涉及**多步骤思考的深度推理过程**。用户还可以通过特定命令来手动控制这种行为,使用 「**/think**」 启用深度模式,或使用 「**/no_think**」 关闭深度模式。
该模型采用了**混合专家 (MoE) 架构**,总参数量高达**800 亿**,但在实际推理过程中,仅有**130 亿个参数**处于活跃状态,这有助于提高运行效率。此外,「混元-A13B」 支持
训练数据与性能表现
根据腾讯发布的技术报告,「混元-A13B」 已在**20 万亿个 token**上进行训练,并针对推理任务及更广泛的用例进行了优化。为了提升模型在科学任务中的可靠性,腾讯特别从**STEM(科学、技术、工程、数学) 领域**收集了**2500 亿个 token**进行训练,数据涵盖数学教科书、考试、GitHub 开源代码、逻辑谜题以及从中**学到大学的科学文本**。
腾讯声称,其 「**混元-A13B-Instruct**」 版本能够与 OpenAI、Deepseek 和阿里巴巴 Qwen 等领先模型相媲美。报告指出,在**2024 年美国数学竞赛 AIME**中,「混元-A13B」 的准确率达到了**87.3%**,领先于 OpenAIo1 的 74.3%。
然而,需要注意的是,从**2025 年的结果来看**,OpenAIo1 在该轮测试中领先近 3%。此外,腾讯的比较数据基于 Deepseek-R1 的**过时 1 月版本**,而 Deepseek 在**5 月发布的版本**在 AIME2024 和 2025 中的表现更优异,分别取得了 91.4 分和 87.5 分。









