阿里开源 MaskSearch！AI 学会主动搜索+多步推理，复杂问题精准破解

近日，阿里通义实验室宣布开源全新预训练框架 MaskSearch，通过创新的检索增强掩码预测（RAMP）方法和强化学习技术，显著提升 AI 在复杂问题解决中的表现。这一框架让 AI 学会主动搜索与多步推理，为智能搜索和问答系统开辟了新的可能性。AIbase 编辑团队整理了最新信息，为您深度解析 MaskSearch 的亮点与行业影响。

MaskSearch: 让 AI 学会「主动搜索+多步推理」

MaskSearch 的核心创新在于其**检索增强掩码预测（RAMP）**机制。这一机制通过模拟「填空题」的方式，训练 AI 在面对不完整信息时，主动调用搜索引擎查找缺失内容，并结合已有信息进行推理。AIbase 了解到，RAMP 任务通过在预训练阶段引入大量「掩码」数据，让模型逐步学习从简单到复杂的推理技能。这种循序渐进的训练方式，不仅增强了 AI 对外部知识的利用能力，还显著提升了其在多步推理任务中的表现。

在实际测试中，基于 Qwen2.5-1.5B 模型的 MaskSearch 在 Bamboogle 数据集上实现了 11.78% 的性能提升，在 HotpotQA 等开放域问答数据集上也展现了稳定的召回率提升。相比传统检索增强生成（RAG）方法，MaskSearch 在跨数据集的泛化能力上表现尤为突出，尤其在处理需要多步推理的复杂问题时，展现了更强的适应性和准确性。

强化学习加持:DAPO 算法提升复杂任务表现

MaskSearch 的另一大亮点是采用了 DAPO 算法（数据增强与策略优化算法），结合格式奖励和回答奖励的强化学习机制，进一步优化 AI 在复杂任务中的表现。格式奖励确保模型生成的答案结构清晰、逻辑严谨，而回答奖励则激励模型输出更准确、更贴合问题需求的内容。这种双重奖励机制使得 MaskSearch 在处理开放域问答、逻辑推理等任务时，能够更高效地分解问题并生成高质量答案。

AIbase 分析发现，DAPO 算法与 RAMP 任务的结合，让 Qwen2.5-1.5B 等小型模型在性能上可媲美更大规模的模型。例如，在 HotpotQA 数据集上，MaskSearch 通过强化学习优化，实现了 3 至 5 个百分点的性能提升，展现了其在资源受限场景下的巨大潜力。

开源赋能: 推动 AI 搜索技术普及

阿里通义实验室将 MaskSearch 完全开源，标志着其在推动 AI 技术民主化上的又一重要举措。开发者可以通过 GitHub 获取 MaskSearch 的代码和相关文档，轻松将其集成到现有的 AI 系统中。AIbase 注意到，MaskSearch 不仅支持 Qwen 系列模型，还兼容 LLaMA 等其他开源模型，展现了良好的通用性。这种开放性为全球开发者提供了低门槛的实验平台，有望加速智能搜索和推理技术在教育、医疗、法律等领域的应用。

社交媒体上，开发者对 MaskSearch 的开源反响热烈，许多人表示这一框架为小型模型的推理能力提升提供了新思路。AIbase 认为，MaskSearch 的开源将进一步推动开源 AI 社区的发展，缩小开源模型与闭源模型在复杂推理任务上的差距。

行业影响: 重塑智能搜索与问答生态

MaskSearch 的发布不仅是阿里通义实验室的技术突破，也是 AI 搜索与推理领域的重要里程碑。AIbase 观察到，传统的检索增强生成（RAG）方法在处理复杂问题时，往往受限于任务特定数据的质量和模型的推理能力。MaskSearch 通过预训练阶段的 RAMP 任务和强化学习优化，赋予了 AI 更强的自主搜索与多步推理能力，使其在开放域问答、知识密集型任务中表现更为出色。

例如，在 Bamboogle 数据集上，Qwen2.5-1.5B 结合 MaskSearch 后，性能提升了 11.78%，而 LLaMA 模型的增益更是高达 15.12%。这些数据表明，MaskSearch 不仅提升了模型的召回率，还显著增强了其跨数据集的泛化能力，为构建更智能的搜索代理奠定了基础。

未来展望:AI 推理进入新阶段

MaskSearch 的推出标志着 AI 推理技术迈向了更智能、更自主的新阶段。阿里通义实验室表示，未来将进一步优化 MaskSearch 的训练流程，探索更高效的强化学习算法，并扩展其在多模态推理任务中的应用。AIbase 预测，随着 MaskSearch 的广泛应用，智能搜索、问答系统乃至自动化决策领域都将迎来新的发展机遇。

对于开发者而言，MaskSearch 不仅是一个强大的预训练框架，更是一个可扩展的平台，未来有望支持更多任务类型和模型架构。

项目地址：https://github.com/Alibaba-NLP/MaskSearch

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

阿里开源 MaskSearch！AI 学会主动搜索+多步推理，复杂问题精准破解

火山引擎豆包日调用量突破 16.4 万亿，市占率高达 46.4%

字节跳动火山引擎推出豆包大模型 1.6，AI 技术再创新高峰

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

火山引擎豆包日调用量突破 16.4 万亿，市占率高达 46.4%

字节跳动火山引擎推出豆包大模型 1.6，AI 技术再创新高峰

哩布哩布 AI- 中国领先的 AI 创作平台

字节跳动发布图像编辑模型 SeedEdit 3.0 细节保持能力进一步提升

蚂蚁数科加速推进 AI 战略，设立 「AI+产业创新」 实验室

字节跳动火山引擎推出豆包大模型 1.6，AI 技术再创新高峰

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

蚂蚁数科加速推进 AI 战略，设立「AI+产业创新」实验室