「问小白」发布第四代开源大模型 XBai o4

小强

开源大模型领域迎来新突破。「问小白」正式发布其第四代开源模型 XBaio4，该模型在复杂推理能力上表现卓越，其 Medium 模式已全面超越 OpenAIo3-mini，并在部分基准测试中优于 AnthropicClaudeOpus。

XBaio4 引入了创新的「反思型生成范式」，通过结合 Long-CoT 强化学习和过程评分学习，实现了深度推理和高效推理链路筛选，同时显著降低了推理成本。

XBaio4 的核心创新在于其独有的「反思型生成范式」（reflectivegenerativeform）。这一范式将 Long-CoT 强化学习与过程评分学习（ProcessRewardLearning）相结合，使得单个模型能够同时完成两个关键任务:

更值得关注的是，XBaio4 通过共享过程评分模型（PRMs）和策略模型的主干网络，将过程评分的推理耗时降低了 99%。这一优化大幅提升了模型的运行效率，为实际应用提供了坚实基础。

XBaio4 模型提供了三种模式（low、medium、high），以适应不同复杂度的任务需求。在多项关键基准测试中，其强大性能得到了充分验证:

「问小白」已在 GitHub 上开源了相关的训练和评估代码，这不仅为 AI 研究社区提供了宝贵的资源，也预示着开源大模型在复杂推理领域的竞争力正在迅速增强。

地址:https://github.com/MetaStone-AI/XBai-o4

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证