立体几何成大模型「拦路虎」，SolidGeo 基准助力 AI 突破空间推理瓶颈！

AI 资讯
25 年 6 月 25 日
编辑

小强

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。

与传统的平面几何相比，立体几何的复杂性在于它需要理解三维结构及其空间关系。这不仅要求模型具备高水平的空间推理能力，还要能够整合视觉与文本信息。SolidGeo 的数据集包含 3113 个高质量的立体几何问题，这些问题来源于 K-12 教育和高中数学竞赛，每道题目都配有图像和详细的解答说明，确保了数据的真实性与可靠性。

在对 26 个主流多模态模型进行的实验中，结果显示，当前最强的 OpenAI-o1 模型在 SolidGeo 测试中的准确率仅为 49.5%，与人类的 77.5% 相比，仍有明显差距。其他模型的表现也不容乐观，许多开源模型的得分均低于 30%。尤其在复杂的立体几何任务中，模型的表现更是大打折扣。例如，在涉及平面折叠与展开等任务时，OpenAI-o1 的准确率仅为 36.1%。相较之下，某些模型在特定难度的任务上却意外表现出色，这可能表明它们在处理简单问题时的泛化能力不足。

该研究还深入分析了模型在不同提示策略、题目难度和推理效率上的表现差异，发现大多数模型在任务难度增加时准确率显著下降。而推理效率则常常因为输出过长而降低，造成「过度思考」现象，这给 AI 的实际应用带来了挑战。

SolidGeo 的推出，不仅为 AI 模型在立体几何推理方面提供了新的评测标准，更是推动了多模态模型在空间智能领域的进一步探索。随着大模型能力的提升，如何在立体几何等复杂领域实现突破，将成为研究者们未来的重要任务。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

立体几何成大模型「拦路虎」，SolidGeo 基准助力 AI 突破空间推理瓶颈！

Harvey AI 融资再创新高，估值飙升至 50 亿美元

Grok 新功能曝光: 将推出支持电子表格的高级文件编辑器

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Harvey AI 融资再创新高，估值飙升至 50 亿美元

Grok 新功能曝光: 将推出支持电子表格的高级文件编辑器

李开复预测：中国大模型未来或只剩三大巨头

英伟达发布 Llama Nemotron Nano VL AI：登顶 OCRBench，高精度文档处理解决方案

英国电影协会警告：AI 技术对影视行业构成直接威胁

豆包 App「一句话 P 图」 功能全新升级 基于 SeedEdit 3.0 实现全面优化

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

豆包 App「一句话 P 图」功能全新升级基于 SeedEdit 3.0 实现全面优化