腾讯开源「混元-A13B」: 动态推理大模型，主打「会思考」

AI 资讯
25 年 7 月 8 日
编辑

小强

腾讯近日宣布开源其全新语言模型「**混元-A13B**」，该模型引入了创新的**动态推理方法**，使其能够根据任务复杂性在快速和深度「思考」之间智能切换。

核心亮点: 动态推理与 MoE 架构

「混元-A13B」的核心优势在于其**实时调整推理深度**的能力。对于简单的查询，模型会启用**快速模式**，以最少的推理步骤迅速响应; 而面对更复杂的问题，它则能激活涉及**多步骤思考的深度推理过程**。用户还可以通过特定命令来手动控制这种行为，使用「**/think**」启用深度模式，或使用「**/no_think**」关闭深度模式。

该模型采用了**混合专家（MoE）架构**，总参数量高达**800 亿**，但在实际推理过程中，仅有**130 亿个参数**处于活跃状态，这有助于提高运行效率。此外，「混元-A13B」支持最高达**256，000 个标记的上下文窗口**，处理长文本的能力显著增强。

训练数据与性能表现

根据腾讯发布的技术报告，「混元-A13B」已在**20 万亿个 token**上进行训练，并针对推理任务及更广泛的用例进行了优化。为了提升模型在科学任务中的可靠性，腾讯特别从**STEM（科学、技术、工程、数学）领域**收集了**2500 亿个 token**进行训练，数据涵盖数学教科书、考试、GitHub 开源代码、逻辑谜题以及从中**学到大学的科学文本**。

腾讯声称，其「**混元-A13B-Instruct**」版本能够与 OpenAI、Deepseek 和阿里巴巴 Qwen 等领先模型相媲美。报告指出，在**2024 年美国数学竞赛 AIME**中，「混元-A13B」的准确率达到了**87.3%**，领先于 OpenAIo1 的 74.3%。

然而，需要注意的是，从**2025 年的结果来看**，OpenAIo1 在该轮测试中领先近 3%。此外，腾讯的比较数据基于 Deepseek-R1 的**过时 1 月版本**，而 Deepseek 在**5 月发布的版本**在 AIME2024 和 2025 中的表现更优异，分别取得了 91.4 分和 87.5 分。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

腾讯开源「混元-A13B」: 动态推理大模型，主打「会思考」

惊人发现！14% 生物医学论文疑似 AI 代写，你的小心思暴露无遗！

OpenAI 宣布 GPT-5 将整合多种模型，实现全新突破

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

惊人发现！14% 生物医学论文疑似 AI 代写，你的小心思暴露无遗！

OpenAI 宣布 GPT-5 将整合多种模型，实现全新突破

字节跳动发布图像编辑模型 SeedEdit 3.0 细节保持能力进一步提升

蚂蚁数科加速推进 AI 战略，设立 「AI+产业创新」 实验室

阿里开源 MaskSearch！AI 学会主动搜索+多步推理，复杂问题精准破解

博世联手阿里云，AI 智能座舱技术迈入新纪元！

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

蚂蚁数科加速推进 AI 战略，设立「AI+产业创新」实验室