突破瓶颈！上交大与上海 AI Lab 携手提升多模态大模型反思能力

AI 资讯
25 年 10 月 22 日
编辑

小强

多模态大模型（MLLM）在解决复杂问题方面逐渐展现出强大的潜力。然而，这些模型在处理复杂推理时常常显得「耿直」，缺乏反思能力，导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题，上海交通大学与上海人工智能实验室的研究团队推出了一个名为 MM-HELIX 的创新项目，旨在让 AI 学习像人类一样进行长链反思性推理。

MM-HELIX 不仅仅是一个项目，更是一个全面的生态系统。团队首先构建了一个被称为「终极考场」的 MM-HELIX 基准测试，以评估多模态大模型的反思推理能力。这个基准测试涉及 42 种高度复杂的任务，涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示，即便是当前最顶尖的模型，准确率依然低迷，特别是在多模态输入下，表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。

为帮助多模态大模型更好地学习反思，研究团队还打造了一个名为 MM-HELIX-100K 的数据集，包含 10 万个高质量样本，旨在通过「步骤启发式响应生成」（SERG）流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间，并有效减少了不必要的冗余思考。

此外，团队还提出了一种自适应混合策略优化算法（AHPO），作为智能导师，帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时，也能够培养独立思考的能力。

经过这一系列创新，搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了 18.6%。这一进步不仅突破了原有模型的瓶颈，还展现出反思能力的强大泛化性，证明了该项目对 AI 发展的重大意义。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

突破瓶颈！上交大与上海 AI Lab 携手提升多模态大模型反思能力

Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

混元世界模型 1.1 正式发布: 革新 3D 重建技术，秒级生成高质量场景

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

Fish Audio 推出 S1 语音克隆模型升级：10 秒即可复刻真人语音

混元世界模型 1.1 正式发布: 革新 3D 重建技术，秒级生成高质量场景

Perplexity 重磅升级！定时任务+SEC 金融数据，炒股分析神器来了！

立体几何成大模型 「拦路虎」，SolidGeo 基准助力 AI 突破空间推理瓶颈！

中国 AI 眼镜 Rokid Glasses 正式量产， 25 万台预售订单引爆市场

可灵 AI 推出 「视频音效」 功能，实现 「所见即所听」 沉浸体验

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

立体几何成大模型「拦路虎」，SolidGeo 基准助力 AI 突破空间推理瓶颈！

可灵 AI 推出「视频音效」功能，实现「所见即所听」沉浸体验