苹果发布适配版 SlowFast-LLaVA 模型：长视频理解性能超越大规模模型

AI 资讯
25 年 8 月 26 日
编辑

小强

据国外媒体报道，苹果研究团队近日发布了适配版的 SlowFast-LLaVA 模型，该模型在长视频分析理解任务上表现出色，其性能甚至超越了参数规模更大的模型。这项突破为长视频内容分析提供了高效的全新解决方案。

该模型的核心优势在于其双流架构，这一设计有效解决了传统逐帧处理模式下的信息冗余和上下文窗口溢出问题。慢流（Slow）以低帧率捕捉场景中的静态细节和背景信息，而快流 (Fast) 则以高帧率追踪动作的快速变化。这种协同工作模式极大地优化了视频处理效率。

在长视频基准测试中，SlowFast-LLaVA 展现了卓越性能。其 10 亿、30 亿和 70 亿参数版本均取得了优异成绩。例如，参数仅为 10 亿的模型在 LongVideoBench 的 GeneralVideoQA 任务中获得了 56.6 分，而 70 亿参数版本在 Long-FormVideoUnderstanding 任务中更是达到了 71.5 分的高分。除了视频理解，该模型在知识推理和 OCR 等图像理解任务上同样表现出色。

尽管该模型表现出众，目前仍存在一定局限性，例如输入帧长限制在 128 帧，可能导致关键信息的遗漏。苹果团队表示，未来将继续探索内存优化技术以提升模型性能。

SlowFast-LLaVA 基于公开数据集训练并已开源，为整个 AI 社区在长视频理解领域提供了新的思路和高效工具。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

苹果发布适配版 SlowFast-LLaVA 模型：长视频理解性能超越大规模模型

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

上海市新增生成式人工智能服务备案信息，累计达 83 款

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

​上海市新增生成式人工智能服务备案信息，累计达 83 款

阿里巴巴 2025 财年收入 9963.47 亿元 称开启 AI 时代全新征程

​这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

云计算巨头 Cloudflare 推出 「按爬虫付费」 市场，让网站内容变现更轻松

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国广电 DNS 服务器地址大全

上海市新增生成式人工智能服务备案信息，累计达 83 款

阿里巴巴 2025 财年收入 9963.47 亿元称开启 AI 时代全新征程

这家 AI 驱动的创业工作室计划每年孵化 10 万家新公司

云计算巨头 Cloudflare 推出「按爬虫付费」市场，让网站内容变现更轻松