蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾

AI 资讯
25 年 11 月 5 日
编辑

小强

近日，蚂蚁数科在香港金融科技节上发布了一项革命性的技术——「多语种多模态大模型训练框架」，旨在解决当前大模型在多语言环境中的应用瓶颈。随着人工智能技术的飞速发展，大模型正逐渐成为提升各行业效率的重要工具。然而，传统以英文为母语的大模型在小语种环境中表现不佳，常常面临「语言错乱」和推理信息混乱的问题，这严重制约了其全球化应用。

为应对这一挑战，蚂蚁数科的研究团队开发了这一新框架，并在多文化多语言视觉问答基准测试（CVQA）中取得了显著成果。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源稀缺的小语种上表现尤为突出，展现出卓越的多语言识别能力，成功跻身榜首。

这一突破的核心在于创新的语言感知优化框架。该框架通过「以目标语言进行思考」的机制，结合细粒度多维度的奖励策略与自动化数据解决方案，实现在小语种的深度理解和处理。根据测试结果，与同等规模的开源模型相比，该框架在主流多语言视觉问答（MultilingualVisualQuestionAnswering，VQA）基准测试中准确率提升了约 9.5%，在部分任务中甚至优于 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型，获得评测总分第一。

在安全能力方面，蚂蚁数科还推出了图像安全框架，结合视觉分析与常识推理的伪造识别路径，能够高效识别图像中的视觉不一致性和逻辑矛盾。这一技术不仅能够定位篡改区域，还能进行可解释分析，显著提升数字内容的风险控制能力。

作为蚂蚁数科全球业务的核心技术，这两项能力已在 ZOLOZ 文档识别鉴真产品（RealDoc）中实现了规模化应用，支持 119 种语言，能够高效处理多语种商务文档、合同和证件，覆盖保险理赔、信贷审核及跨境贸易等多个场景。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾

AI 一键变身 PPT 神器！Gemini Canvas 新功能上线，职场人瞬间解放

文心魔法漫画功能上线：一句话一张图，两分钟生成连载！人人皆可做漫画家

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

AI 一键变身 PPT 神器！Gemini Canvas 新功能上线，职场人瞬间解放

文心魔法漫画功能上线：一句话一张图，两分钟生成连载！人人皆可做漫画家

字节跳动推出豆包翻译大模型：28 种语言互译，比肩 GPT-4o

Facebook 推出 AI 约会助手 助力用户精准匹配

​OpenAI 在美国新建五个数据中心，推动 Stargate 项目快速发展

​前 Stability AI CEO：AI 革命将让人类智力价值归零，未来 1000 天面临巨变

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

Facebook 推出 AI 约会助手助力用户精准匹配

OpenAI 在美国新建五个数据中心，推动 Stargate 项目快速发展

前 Stability AI CEO：AI 革命将让人类智力价值归零，未来 1000 天面临巨变