英伟达与港大携手推出新型视觉注意力机制,提升高分辨率生成速度超 84 倍!

近日,香港大学与共同研发了一种新的视觉注意力机制,名为广义空间传播网络 (GSPN),该机制在高分辨率方面取得了显著的突破。

传统的自注意力机制虽然在和计算机视觉领域取得了不错的效果,但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为 O(N²),这使得处理长上下文时非常耗时,并且将二维图像转化为一维序列会导致空间关系的丢失。


为了解决这些问题,GSPN 采用了创新的二维线性传播方法,并结合 「稳定性–上下文条件」 理论,将计算复杂度降低到√N 级别,同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率,并在多个视觉任务上刷新了性能纪录。

GSPN 的核心技术包括两大部分: 二维线性传播和稳定性-上下文条件。通过逐行或逐列的线扫描,GSPN 能够实现对二维图像的高效处理。与传统的注意力机制相比,GSPN 不仅减少了参数量,还保持了信息的完整传播。此外,研究人员还提出了稳定性-上下文条件,确保在长距离传播时系统的稳定性与可靠性。

在实验中,GSPN 展现出了卓越的性能。在图像分类任务中,GSPN 在 5.3GFLOPs 的计算量下,实现了 82.2% 的 Top-1 准确率,超越了多种现有模型。在图像生成方面,GSPN 在处理 256×256 的任务时,生成速度提升了 1.5 倍。尤其在文本到图像生成任务中,GSPN 能够在 16K×8K 分辨率下进行快速生成,推理时间加速超过 84 倍,展示了其在实际应用中的巨大潜力。

综上所述,GSPN 通过独特的设计理念和结构,使得视觉注意力机制在保持空间连贯性的同时,实现了计算效率的显著提升,为未来的多模态模型和实时视觉应用开辟了新的可能。

项目主页:https://whj363636.github.io/GSPN/

代码:https://github.com/NVlabs/GSPN

划重点:

🌟GSPN 通过创新的二维线性传播机制,将高分辨率生成速度提升超过 84 倍。

💡该机制解决了传统自注意力在高分辨率图像处理中的计算复杂度和空间结构损失问题。

🚀GSPN 在多个视觉任务中刷新了性能纪录,为未来的应用提供了新方向。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

全新豆包·视频生成模型明日发布 支持无缝多镜头叙事等功能

2025-6-11 1:21:35

AI 资讯

小模型逆袭!港科大快手联手打造" 进化搜索" 技术,让 AI 作画告别" 大力出奇迹"

2025-6-11 1:22:00

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索