蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！

AI 资讯
25 年 11 月 5 日
编辑

小强

在香港金融科技节上，蚂蚁数科推出了一项革命性的技术——「多语种多模态大模型训练框架」，旨在突破当前大模型在多语言环境中应用的瓶颈。该框架特别针对资源稀缺的小语种，如埃及阿拉伯语、印尼爪哇语、巴哈萨语和巽他语，显示出了非凡的潜力。

这一创新技术的核心在于其独特的语言感知优化框架。该框架采用了「以目标语言进行思考」的机制，结合细粒度、多维度的奖励策略和自动化数据解决方案，极大地增强了对小语种的理解与处理能力。根据测试结果，蚂蚁数科的新框架在主流的多语言视觉问答（MultilingualVisualQuestionAnswering，VQA）基准测试中，准确率较同规模的开源模型提升了约 9.5%。甚至在某些任务中，框架的表现还超过了 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型，荣获评测总分第一。

除了语言模型的突破，蚂蚁数科还推出了图像安全框架，这一技术结合了视觉分析与常识推理，能够高效识别图像中的伪造与不一致性。新框架不仅能够精确定位篡改区域，还提供可解释的分析，显著提升了数字内容的风险控制能力。这一技术的成功实施将为各种场景下的数字内容保护提供更有力的支持。

作为蚂蚁数科全球业务的核心技术，这两项能力已经在 ZOLOZ 的文档识别鉴真产品（RealDoc）中得到了广泛应用，支持 119 种语言，能够高效处理多种商务文档、合同和证件，覆盖保险理赔、信贷审核及跨境贸易等多个领域。这不仅展示了蚂蚁数科在多语言处理领域的领先地位，也为全球用户提供了更好的服务体验。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！

谷歌 CEO 确认:Gemini3 年内发布，AI Agent 能力或成突破口

苹果 Siri 将大变样！付费请谷歌助力 AI 升级

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

谷歌 CEO 确认:Gemini3 年内发布，AI Agent 能力或成突破口

苹果 Siri 将大变样！付费请谷歌助力 AI 升级

腾讯公益首次引入 AI 大模型，提升公益项目互动体验

ElevenLabs 推出 V3 声音模型: 支持 70 多种语言，可通过标签控制情感、语气

告别多 App 切换! 百度"AI 相机"解决 99% 照片处理需求

扎克伯格亲自出马！Meta 组建 「超级智能」 团队欲超越竞争对手

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

扎克伯格亲自出马！Meta 组建「超级智能」团队欲超越竞争对手