X-SAM：打破图像分割的界限，实现任意分割的新突破

AI 资讯
25 年 8 月 20 日
编辑

小强

近日，中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型，标志着图像分割技术的一次重要进步。该模型的出现，不仅提高了图像分割的精度，还实现了从「分割万物」到「任意分割」的重大飞跃。

X-SAM 的核心在于其创新的设计理念，首先引入了统一的输入和输出格式，以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作，前者适用于通用分割等任务，后者则可通过点、涂鸦等视觉提示实现交互式分割。此外，X-SAM 的输出采用统一表示，使得分割结果能够被有效解读。

为了提升分割效果，X-SAM 采用了双编码器架构，其中一个负责提取全局特征，另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力，还确保了分割的精细化。同时，模型还引入了分割连接器和统一分割解码器，前者能够处理多尺度特征，后者则替换了传统的解码器架构，进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段，第一阶段为分割器微调，旨在提升模型的基础分割能力; 第二阶段进行对齐预训练，使语言与视觉的嵌入对齐; 第三阶段则是混合微调，通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示，X-SAM 在 20 多个分割数据集上均达到了最先进的性能，展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世，研究团队希望未来能够将其应用扩展到视频领域，结合时间信息，推动视频理解技术的发展。这一新型模型的成功，不仅为图像分割研究开辟了新方向，也为构建更为通用的视觉理解系统奠定了基础。

代码地址:https://github.com/wanghao9610/X-SAM
Demo 地址:https://47.115.200.157:7861

划重点:

🌟X-SAM 模型实现了从「分割万物」到「任意分割」的重大飞跃，提升了图像分割的精度和应用范围。

💡该模型引入统一输入输出格式，支持文本和视觉查询，提升用户交互体验。

🚀经过三阶段训练，X-SAM 在 20 多个数据集上达到了最先进性能，为未来的视觉理解系统奠定基础。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}} 已认证

X-SAM：打破图像分割的界限，实现任意分割的新突破

苹果 Xcode 即将原生集成 Claude，开发者编程体验将迎来重大升级

ElevenLabs 发布全新视频到音乐生成流程

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

{{userData.name}} 已认证

相关文章：

苹果 Xcode 即将原生集成 Claude，开发者编程体验将迎来重大升级

ElevenLabs 发布全新视频到音乐生成流程

谷歌支付 1 亿美元和解 14 年广告收费诉讼，涉及超 91 万页证据材料

OpenAI 宣布付费 ChatGPT 用户突破 300 万，增长势头强劲

Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭 「限流」

字节跳动重磅推出豆包 1.6 与 Seedance1.0，成本大幅降低

国内知名公共 DNS 服务器

海外知名公共 DNS 服务器

中国电信 DNS 服务器地址大全

公共 DNS 服务器地址大全

中国移动 DNS 服务器地址大全

中国天威视讯 DNS 服务器地址大全

Google AI Studio 政策变动:Gemini2.5Pro 模型免费访问遭「限流」