英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

AI 资讯
6 月 11 日
编辑

小强

近日，香港大学与英伟达共同研发了一种新的视觉注意力机制，名为广义空间传播网络（GSPN），该机制在高分辨率图像生成方面取得了显著的突破。

传统的自注意力机制虽然在自然语言处理和计算机视觉领域取得了不错的效果，但在处理高分辨率图像时却面临计算量巨大和空间结构损失的双重挑战。传统的自注意力机制的计算复杂度为 O(N²)，这使得处理长上下文时非常耗时，并且将二维图像转化为一维序列会导致空间关系的丢失。

为了解决这些问题，GSPN 采用了创新的二维线性传播方法，并结合「稳定性–上下文条件」理论，将计算复杂度降低到√N 级别，同时保留了图像的空间连贯性。这种新的机制大幅提升了计算效率，并在多个视觉任务上刷新了性能纪录。

GSPN 的核心技术包括两大部分: 二维线性传播和稳定性-上下文条件。通过逐行或逐列的线扫描，GSPN 能够实现对二维图像的高效处理。与传统的注意力机制相比，GSPN 不仅减少了参数量，还保持了信息的完整传播。此外，研究人员还提出了稳定性-上下文条件，确保在长距离传播时系统的稳定性与可靠性。

在实验中，GSPN 展现出了卓越的性能。在图像分类任务中，GSPN 在 5.3GFLOPs 的计算量下，实现了 82.2% 的 Top-1 准确率，超越了多种现有模型。在图像生成方面，GSPN 在处理 256×256 的任务时，生成速度提升了 1.5 倍。尤其在文本到图像生成任务中，GSPN 能够在 16K×8K 分辨率下进行快速生成，推理时间加速超过 84 倍，展示了其在实际应用中的巨大潜力。

综上所述，GSPN 通过独特的设计理念和结构，使得视觉注意力机制在保持空间连贯性的同时，实现了计算效率的显著提升，为未来的多模态模型和实时视觉应用开辟了新的可能。

项目主页:https://whj363636.github.io/GSPN/

代码:https://github.com/NVlabs/GSPN

划重点:

🌟GSPN 通过创新的二维线性传播机制，将高分辨率生成速度提升超过 84 倍。

💡该机制解决了传统自注意力在高分辨率图像处理中的计算复杂度和空间结构损失问题。

🚀GSPN 在多个视觉任务中刷新了性能纪录，为未来的应用提供了新方向。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

英伟达与港大携手推出新型视觉注意力机制，提升高分辨率生成速度超 84 倍！

全新豆包·视频生成模型明日发布支持无缝多镜头叙事等功能

小模型逆袭！港科大快手联手打造" 进化搜索" 技术，让 AI 作画告别" 大力出奇迹"

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

全新豆包·视频生成模型明日发布 支持无缝多镜头叙事等功能

小模型逆袭！港科大快手联手打造" 进化搜索" 技术，让 AI 作画告别" 大力出奇迹"

谷歌支付 1 亿美元和解 14 年广告收费诉讼，涉及超 91 万页证据材料

OpenAI 宣布付费 ChatGPT 用户突破 300 万，增长势头强劲

Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭 「限流」

字节跳动 AI IDE 产品 TRAE 升级，月活用户已超 100 万

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

全新豆包·视频生成模型明日发布支持无缝多镜头叙事等功能

Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭「限流」