英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出 19.05 分

AI 资讯
25 年 10 月 29 日
编辑

小强

英伟达研究团队今日发布了名为 OmniVinci 的全模态理解模型，该模型在关键的全模态理解基准测试中取得了惊人的成果，相较于现有顶尖模型高出 19.05 分。更为引人注目的是，OmniVinci 仅使用了 1/6 的训练数据，展现出卓越的数据效率和性能。

OmniVinci 的目标是创建一个能够同时理解视觉、音频和文本的全能 AI 系统，使机器能够像人类一样通过多种感官感知并理解复杂的世界。为了实现这一目标，英伟达团队采取了创新的架构设计和数据管理策略，通过一个统一的全模态潜在空间，将不同感官的信息融合在一起，实现了跨模态的理解和推理。

在 Dailyomni 基准测试中，OmniVinci 的表现超过了 Qwen2.5-Omni，其在音频理解的 MMAR 测试中高出 1.7 分，在视觉理解的 Video-MME 测试中高出 3.9 分。使用的训练 Token 仅为 0.2 万亿，而 Qwen2.5-Omni 的训练量为 1.2 万亿，显示出 OmniVinci 的训练效率是其 6 倍。

该模型的核心创新在于全模态对齐机制，包括 OmniAlignNet 模块、时间嵌入分组（TEG）和约束旋转时间嵌入 (CRTE) 三项技术。OmniAlignNet 利用视觉和音频信号之间的互补性，加强了两者的学习与对齐。而 TEG 则通过将视觉和音频信息按时间分组，有效编码了时间关系。CRTE 则进一步解决了时间对齐问题，确保模型能够理解事件的绝对时间信息。

研究团队采用了两阶段的训练方法，首先进行模态特定训练，随后进行全模态联合训练，以逐步提升模型的全模态理解能力。在隐式全模态学习方面，研究者们通过现有的视频问答数据集，进一步提高了模型对音视频的联合理解能力。

OmniVinci 的问世标志着英伟达在多模态 AI 领域的重要突破，预计将在各类应用中推动 AI 技术的发展，助力更智能的系统和服务的出现。该模型的开源发布，也将为全球的研究人员和开发者提供新的机遇，推动 AI 在实际应用中的进一步探索与创新。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出 19.05 分

零一万物新高管亮相！李开复如何推动 AI 落地 ToB 2.0？

跨国会议新利器！飞猫 AI WiFi 同声传译，打破语言和网络障碍

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

零一万物新高管亮相！李开复如何推动 AI 落地 ToB 2.0？

跨国会议新利器！飞猫 AI WiFi 同声传译，打破语言和网络障碍

微信支付 MCP 上线：AI 与支付的完美结合，开启商业新纪元

​OpenAI 独辟蹊径，推出研究员驻留计划吸引新兴 AI 人才

OpenAI 强势挖角，四名顶尖工程师加盟助力 「星际之门」 计划

2025 上半年 AI API 王者争霸：Gemini 称霸、DeepSeek 逆袭，OpenAI 为何掉队？

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

OpenAI 独辟蹊径，推出研究员驻留计划吸引新兴 AI 人才

OpenAI 强势挖角，四名顶尖工程师加盟助力「星际之门」计划