蚂蚁数科推出多语种视觉大模型训练框架,高效识别文档伪造与逻辑矛盾

近日,蚂蚁数科在香港金融科技节上发布了一项革命性的技术——「多语种多模态训练框架」,旨在解决当前大模型在多语言环境中的应用瓶颈。随着技术的飞速发展,大模型正逐渐成为提升各行业效率的重要工具。然而,传统以英文为母语的大模型在小语种环境中表现不佳,常常面临 「语言错乱」 和推理信息混乱的问题,这严重制约了其全球化应用。

为应对这一挑战,蚂蚁数科的研究团队开发了这一新框架,并在多文化多语言视觉问答基准测试 (CVQA) 中取得了显著成果。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源稀缺的小语种上表现尤为突出,展现出卓越的多语言识别能力,成功跻身榜首。

这一突破的核心在于创新的语言感知优化框架。该框架通过 「以目标语言进行思考」 的机制,结合细粒度多维度的奖励策略与自动化数据解决方案,实现在小语种的深度理解和处理。根据测试结果,与同等规模的模型相比,该框架在主流多语言视觉问答 (MultilingualVisualQuestionAnswering,VQA) 基准测试中准确率提升了约 9.5%,在部分任务中甚至优于 -4o 和 -2.5-flash 等国际主流闭源模型,获得评测总分第一。

在安全能力方面,蚂蚁数科还推出了图像安全框架,结合视觉分析与常识推理的伪造识别路径,能够高效识别图像中的视觉不一致性和逻辑矛盾。这一技术不仅能够定位篡改区域,还能进行可解释分析,显著提升数字内容的风险控制能力。

作为蚂蚁数科全球业务的核心技术,这两项能力已在 ZOLOZ 文档识别鉴真产品 (RealDoc) 中实现了规模化应用,支持 119 种语言,能够高效处理多语种商务文档、合同和证件,覆盖保险理赔、信贷审核及跨境贸易等多个场景。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

AI 一键变身 PPT 神器!Gemini Canvas 新功能上线,职场人瞬间解放

2025-11-5 1:21:32

AI 资讯

文心魔法漫画功能上线:一句话一张图,两分钟生成连载!人人皆可做漫画家

2025-11-5 1:21:48

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索