高考数学大赛:六大 AI 模型争锋,豆包与元宝双双夺冠

随着高考的到来,数学考试再一次成为考生们心中的 「魔鬼」。在这场竞争中,六大模型也参与了挑战,分别是字节的的元宝、阿里的通义、百度的文心 X1Turbo、深度求索的 以及 的 o3。此次测试采用的是 年新课标Ⅰ卷的 14 道客观题,总分为 73 分,涵盖了单选题、多选题和填空题。

为了确保测试的公平性,所有模型在答题时都没有系统提示和联网搜索的支持,每个模型只能进行一次答题。经过一番较量,最终结果出乎意料,豆包和元宝同以 68 分的成绩并列第一,展现了出色的推理能力。相对而言,DeepSeek 和通义则稍显逊色,分别以 63 分和 62 分完赛。而文心 X1 和 o3 的表现则令人失望,尤其是 o3,仅获得 34 分,显现出对国内高考题目的适应性不足。

在具体题型的表现上,豆包、通义和元宝在单选题的表现颇为亮眼,各自得分 35 分。DeepSeek 因两道题失误拿下 30 分,而 o3 则惨遭滑铁卢,单选题的得分仅为 20 分,错了一半的题目。而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。

此次测试不仅显示出各大 在高考数学上的潜力和不足,也反映了它们在推理能力和反思能力上的进步。相较于去年,这些模型在细节处理、公式应用和逻辑推理上都有显著的提升。尽管仍然存在一些错误和不足,但这次比赛无疑为未来的 数学能力打下了基础。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

美国拟禁止州级人工智能法规,引发对消费者保护的担忧

2025-6-10 1:22:45

AI 资讯

Clark 发布背后:Superblocks 公布 19 条系统提示,揭秘企业级 AI 编码逻辑

2025-6-10 1:23:02

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索