​X-SAM:打破图像分割的界限,实现任意分割的新突破

近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 「分割万物」 到 「任意分割」 的重大飞跃。

X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。

为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段,第一阶段为分割器微调,旨在提升模型的基础分割能力; 第二阶段进行对齐预训练,使语言与视觉的嵌入对齐; 第三阶段则是混合微调,通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示,X-SAM 在 20 多个分割数据集上均达到了最先进的性能,展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。

  • 代码地址:https://github.com/wanghao9610/X-SAM

  • Demo 地址:https://47.115.200.157:7861

划重点:

🌟X-SAM 模型实现了从 「分割万物」 到 「任意分割」 的重大飞跃,提升了图像分割的精度和应用范围。

💡该模型引入统一输入输出格式,支持文本和视觉查询,提升用户交互体验。

🚀经过三阶段训练,X-SAM 在 20 多个数据集上达到了最先进性能,为未来的视觉理解系统奠定基础。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给 TA 打赏
共 {{data.count}} 人
人已打赏
AI 资讯

苹果 Xcode 即将原生集成 Claude,开发者编程体验将迎来重大升级

2025-8-20 1:21:23

AI 资讯

ElevenLabs 发布全新视频到音乐生成流程

2025-8-20 1:21:39

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索