据国外媒体报道,苹果研究团队近日发布了适配版的 SlowFast-LLaVA 模型,该模型在长视频分析理解任务上表现出色,其性能甚至超越了参数规模更大的模型。这项突破为长视频内容分析提供了高效的全新解决方案。
该模型的核心优势在于其双流架构,这一设计有效解决了传统逐帧处理模式下的信息冗余和上下文窗口溢出问题。慢流 (Slow) 以低帧率捕捉场景中的静态细节和背景信息,而快流 (Fast) 则以高帧率追踪动作的快速变化。这种协同工作模式极大地优化了视频处理效率。
在长视频基准测试中,SlowFast-LLaVA 展现了卓越性能。其 10 亿、30 亿和 70 亿参数版本均取得了优异成绩。例如,参数仅为 10 亿的模型在 LongVideoBench 的 GeneralVideoQA 任务中获得了 56.6 分,而 70 亿参数版本在 Long-FormVideoUnderstanding 任务中更是达到了 71.5 分的高分。除了视频理解,该模型在知识推理和 OCR 等图像理解任务上同样表现出色。
尽管该模型表现出众,目前仍存在一定局限性,例如输入帧长限制在 128 帧,可能导致关键信息的遗漏。苹果团队表示,未来将继续探索内存优化技术以提升模型性能。









