HKU 和美团联手破解 AI 数学难题：CodePlot-CoT 让大模型学会用代码画图思考，性能飙升 21%

大型语言模型在处理数学几何题时一直存在明显短板。无论是 GPT-4.1 还是 Gemini-2.5-Pro，在写作、编程等任务上表现出色，但一旦遇到需要画辅助线或函数图像才能解决的数学题，就会频繁出错。

问题的根源在于大模型是语言天才，但不是几何学家。它们擅长纯文本思维链推理，可以逐步推导公式，但要在脑海中精确画图并据此得出结论，却常常力不从心，甚至给出错误答案。

香港大学和美团团队近日发布的论文《CODEPLOT-COT:MATHEMATICALVISUALREASONINGBYTHINKINGWITHCODE-DRIVENIMAGES》，为这一难题提供了创新解决方案。他们找到了让大模型一边画图一边思考，而且图画得超级精准的方法。

过去的研究曾尝试视觉思维链方法，让模型直接生成或操作图像来辅助推理。但这种方法在数学领域效果不佳。自然图片追求的是纹理和光影等像素级细节，而数学图形需要绝对的精确性，要保证角度、线段比例、点的位置等严格符合几何约束。让 AI 直接生成满足严格几何约束的图像，就像让写意派画家画精确到毫米的工程图，根本不是一回事。生成模型在处理高维像素分布时容易失真，无法保证数学所需的精确度和可控性。

这篇论文的核心创新在于，既然直接画图不靠谱，为什么不让大模型做它最擅长的事情——写代码? 团队提出了 CodePlot-CoT 代码驱动思维链范式。

具体流程是这样的。首先，大模型接收数学题目并进行推理。当推理过程需要画辅助线或函数图时，模型不会生成图片，而是生成一段可执行的绘图代码，比如 Python 的 Matplotlib 代码。然后这段代码会在 Python 渲染器中执行，瞬间生成一张精确的几何图形。最后模型将这张代码渲染的图像重新输入回推理链中，继续文本推理直到得出最终答案。

这一方法巧妙地将难以精确控制的图像生成问题，转化成了大模型最擅长的语言建模问题。数学图形最核心的结构属性，如形状、位置、角度，恰好能通过结构化代码完美表达，完美避开了像素级细节的干扰。

为了训练这样的模型，团队打造了两件神器。第一件是 Math-VR 数据集，包含 17.8 万个双语数学问题。与以前的基准测试不同，过去的题目图都画好了，只需要看图说话，而 Math-VR 要求模型主动画图思考。比如一道等腰三角形题目，可能需要考虑三种情况，模型得自己画出三种图来分析。在学科分布上，几何学占了约 81% 的绝对主导地位。

第二件神器是 MatplotCode 转换器，这是一个专门用于数学图形的图像到代码翻译工具，能将数学图高保真地转换成 Python 绘图代码。即使是顶级商业模型如 Gemini-2.5-Pro 和 GPT-5 在零样本情况下，也不能可靠地将复杂数学图形精准转换成绘图代码。实验证明，这个转换器的代码生成成功率和图像重建保真度都远超现有模型。

实验结果证实了这种代码即思维范式的有效性。在 Math-VR 基准测试上，CodePlot-CoT 相较于基础模型性能提升高达 21%。更值得注意的是，即使是参数量更大的顶级闭源模型如 Gemini-2.5-Pro，在这个新基准上仍有约三分之一的题目会做错。这有力证明，仅仅增加模型规模和文本思维链长度是不够的，想要真正解决视觉数学推理问题，可控、精确、可验证的代码驱动视觉推理才是关键。

CodePlot-CoT 的成功不仅是又一个先进模型，更为多模态数学推理开辟了全新方向。它证明在需要高精度和强逻辑的领域，如科学计算、工程设计，大模型不应执着于模仿人类笔触，而应利用其编程能力构建精确可控的数字世界，再在这个世界里进行推理和验证。

该团队已将所有数据集、代码和预训练模型开源，为整个 AI 社区提供了宝贵资源。这标志着大模型在几何题推理上迈出了重要一步，通过代码驱动的视觉推理方法，AI 终于找到了破解数学几何难题的有效途径。

论文地址：https://arxiv.org/pdf/2510.11718

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

HKU 和美团联手破解 AI 数学难题：CodePlot-CoT 让大模型学会用代码画图思考，性能飙升 21%

农业智能化新突破! 中国农业大学发布神农大模型 3.0

谷歌 Lens 与 AI 模式上线 Nano Banana 图像编辑功能

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

农业智能化新突破! 中国农业大学发布神农大模型 3.0

谷歌 Lens 与 AI 模式上线 Nano Banana 图像编辑功能

港大携手快手可灵突破长视频一致性瓶颈，"记忆检索"技术震撼发布

​在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

NotebookLM 视频概览新增支持 80 多种语言，支持中文

​清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

在代理 AI 和物理 AI 推动下，全球芯片市场预计将突破 1 万亿美元大关

清华与东北大学联合推出 UltraRAG 2.0：50 行代码实现高性能检索增强生成系统