大型语言模型在处理数学几何题时一直存在明显短板。无论是 GPT-4.1 还是 Gemini-2.5-Pro,在写作、编程等任务上表现出色,但一旦遇到需要画辅助线或函数图像才能解决的数学题,就会频繁出错。
问题的根源在于大模型是语言天才,但不是几何学家。它们擅长纯文本思维链推理,可以逐步推导公式,但要在脑海中精确画图并据此得出结论,却常常力不从心,甚至给出错误答案。
香港大学和美团团队近日发布的论文 《CODEPLOT-COT:MATHEMATICALVISUALREASONINGBYTHINKINGWITHCODE-DRIVENIMAGES》,为这一难题提供了创新解决方案。他们找到了让大模型一边画图一边思考,而且图画得
过去的研究曾尝试视觉思维链方法,让模型直接生成或操作图像来辅助推理。但这种方法在数学领域效果不佳。自然图片追求的是纹理和光影等像素级细节,而数学图形需要
这篇论文的核心创新在于,既然直接画图不靠谱,为什么不让大模型做它最擅长的事情——写代码? 团队提出了 CodePlot-CoT 代码驱动思维链范式。
具体流程是这样的。首先,大模型接收数学题目并进行推理。当推理过程需要画辅助线或函数图时,模型不会生成图片,而是生成一段可执行的绘图代码,比如 Python 的 Matplotlib 代码。然后这段代码会在 Python 渲染器中执行,瞬间生成一张精确的几何图形。最后模型将这张代码渲染的图像重新输入回推理链中,继续文本推理直到得出最终答案。
这一方法巧妙地将难以精确控制的图像生成问题,转化成了大模型最擅长的语言建模问题。数学图形最核心的结构属性,如形状、位置、角度,恰好能通过结构化代码完美表达,完美避开了像素级细节的干扰。
为了训练这样的模型,团队打造了两件神器。
第二件神器是 MatplotCode 转换器,这是一个专门用于数学图形的图像到代码翻译工具,能将数学图高保真地转换成 Python 绘图代码。即使是
实验结果证实了这种代码即思维范式的有效性。在 Math-VR 基准测试上,CodePlot-CoT 相较于基础模型性能提升高达 21%。更值得注意的是,即使是参数量更大的
CodePlot-CoT 的成功不仅是又一个先进模型,更为多模态数学推理开辟了全新方向。它证明在需要高精度和强逻辑的领域,如科学计算、工程设计,大模型不应执着于模仿人类笔触,而应利用其编程能力构建精确可控的数字世界,再在这个世界里进行推理和验证。
该团队已将所有数据集、代码和预训练模型开源,为整个 AI 社区提供了宝贵资源。这标志着大模型在几何题推理上迈出了重要一步,通过代码驱动的视觉推理方法,AI 终于找到了破解数学几何难题的有效途径。
论文地址:https://arxiv.org/pdf/2510.11718











