美团 LongCat 发布创新基准测试 UNO-Bench，全面提升多模态大语言模型评估能力

AI 资讯
25 年 11 月 7 日
编辑

小强

近日，美团 LongCat 团队推出了一个名为 UNO-Bench 的全新基准测试，旨在系统性地评估这些模型在不同模态下的理解能力。这个基准测试涵盖了 44 种任务类型和 5 种模态组合，力求全面展现模型的单模态与全模态的性能。

UNO-Bench 的核心在于其丰富的数据集。团队精心挑选了 1250 个全模态样本，这些样本的跨模态可解性高达 98%。同时，还增加了 2480 个经过增强的单模态样本。这些样本不仅充分考虑了真实场景的应用，尤其在中文语境下表现尤为出色。而值得一提的是，经过自动压缩处理后，这些数据集的运行速度提高了 90%，并在 18 个公开基准测试中保持了高达 98% 的一致性。

为了更好地评估模型的复杂推理能力，UNO-Bench 还引入了一种创新的多步骤开放式问题形式。这种形式结合了一个通用的评分模型，能够自动评估六种不同题型，准确率达到了惊人的 95%。这种创新的评估方式，无疑为多模态模型的评测提供了新的思路。

目前，UNO-Bench 主要聚焦于中文场景，团队表示正在积极寻求合作伙伴，计划共同开发英语及多语言版本。感兴趣的开发者可以通过 HuggingFace 平台下载 UNO-Bench 数据集，相关代码和项目文档也已在 GitHub 上公开。

随着 UNO-Bench 的发布，多模态大语言模型的评估标准将得到进一步提升，这不仅为研究者提供了有力的工具，也为整个行业的进步铺平了道路。

项目地址:https://meituan-longcat.github.io/UNO-Bench/

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

美团 LongCat 发布创新基准测试 UNO-Bench，全面提升多模态大语言模型评估能力

谷歌拟加大对 Anthropic 投资，估值或超 3500 亿美元

谷歌地图迎来重磅升级！语音助手 Gemini 助你轻松导航

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

​谷歌拟加大对 Anthropic 投资，估值或超 3500 亿美元

谷歌地图迎来重磅升级！语音助手 Gemini 助你轻松导航

全新一代人形机器人 Figure 03 正式发布，开启智能家居新时代

国内 AI 助手通义千问和豆包开启记忆功能，力争超越 ChatGPT

Firefox 全球上线 AI 搜索引擎 Perplexity：用户可自主选择是否启用 AI 搜索

清华长庚医院与北电数智合作研发国内首个药学大模型：聚焦特殊人群用药安全评估

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

谷歌拟加大对 Anthropic 投资，估值或超 3500 亿美元