「问小白」 发布第四代开源大模型 XBai o4

领域迎来新突破。「问小白」 正式发布其第四代开源模型 XBaio4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAIo3-mini,并在部分基准测试中优于 AnthropicClaudeOpus。

XBaio4 引入了创新的 「反思型生成范式」,通过结合 Long-CoT 强化学习和过程评分学习,实现了深度推理和高效推理链路筛选,同时显著降低了推理成本。

技术突破: 独创 「反思型生成范式」

XBaio4 的核心创新在于其独有的 「反思型生成范式」(reflectivegenerativeform)。这一范式将 Long-CoT 强化学习过程评分学习(ProcessRewardLearning) 相结合,使得单个模型能够同时完成两个关键任务:

  1. 深度推理: 像人类一样进行多步骤的复杂思考。

  2. 高质量推理链路筛选: 能够评估和选择最优的推理路径。

更值得关注的是,XBaio4 通过共享过程评分模型 (PRMs) 和策略模型的主干网络,将过程评分的推理耗时降低了 99%。这一优化大幅提升了模型的运行效率,为实际应用提供了坚实基础。

性能卓越: 多基准测试领先

XBaio4 模型提供了三种模式 (low、medium、high),以适应不同复杂度的任务需求。在多项关键基准测试中,其强大性能得到了充分验证:

  • 在 Medium 模式下,XBaio4 全面超越了 的 o3-mini 模型

  • 在部分基准测试中,其表现甚至优于 的 ClaudeOpus

  • 该模型在 AIME24、AIME25、LiveCodeBenchv5、C-EVAL 等多个测试中均展现出卓越的推理能力。

「问小白」 已在 GitHub 上开源了相关的训练和评估代码,这不仅为 研究社区提供了宝贵的资源,也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。

地址:https://github.com/MetaStone-AI/XBai-o4

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

小米全量开源 MiDashengLM-7B:音频理解性能刷新 SOTA,推理速度暴增 20 倍

2025-8-5 1:20:31

AI 资讯

问小白推出 XBai o4 开源大模型:反思型推理架构颠覆传统,性能全面碾压 OpenAI o3-mini

2025-8-5 1:20:38

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索