突破瓶颈!上交大与上海 AI Lab 携手提升多模态大模型反思能力

多模态(MLLM) 在解决复杂问题方面逐渐展现出强大的潜力。然而,这些模型在处理复杂推理时常常显得 「耿直」,缺乏反思能力,导致在面对需要多次尝试的挑战时难以回头。为了解决这一问题,上海交通大学与上海实验室的研究团队推出了一个名为 MM-HELIX 的创新项目,旨在让 学习像人类一样进行长链反思性推理。

MM-HELIX 不仅仅是一个项目,更是一个全面的生态系统。团队首先构建了一个被称为 「终极考场」 的 MM-HELIX 基准测试,以评估多模态大模型的反思推理能力。这个基准测试涉及 42 种高度复杂的任务,涵盖了算法、图论、谜题和策略游戏等领域。测试结果显示,即便是当前最顶尖的模型,准确率依然低迷,特别是在多模态输入下,表现更为惨淡。这一结果无疑强调了提升 AI 反思能力的重要性。

为帮助多模态大模型更好地学习反思,研究团队还打造了一个名为 MM-HELIX-100K 的数据集,包含 10 万个高质量样本,旨在通过 「步骤启发式响应生成」(SERG) 流程来教会模型如何进行反思和复盘。此过程大幅缩短了解题时间,并有效减少了不必要的冗余思考。

此外,团队还提出了一种自适应混合策略优化算法 (AHPO),作为智能导师,帮助模型在学习过程中逐渐从依赖专家指导转向自主探索。这种动态教学机制让模型在不断提高准确率的同时,也能够培养独立思考的能力。

经过这一系列创新,搭载 MM-HELIX 的 Qwen2.5-VL-7B 模型在基准测试中准确率提升了 18.6%。这一进步不仅突破了原有模型的瓶颈,还展现出反思能力的强大泛化性,证明了该项目对 AI 发展的重大意义。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

Fish Audio 推出 S1 语音克隆模型升级:10 秒即可复刻真人语音

2025-10-22 1:23:06

AI 资讯

混元世界模型 1.1 正式发布: 革新 3D 重建技术,秒级生成高质量场景

2025-10-23 1:20:32

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索