近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 「分割万物」 到 「任意分割」 的重大飞跃。
X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。
为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。
X-SAM 的训练过程分为三个阶段,
随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。
-
代码地址:https://github.com/wanghao9610/X-SAM
-
Demo 地址:https://47.115.200.157:7861
划重点:
🌟X-SAM 模型实现了从 「分割万物」 到 「任意分割」 的重大飞跃,提升了图像分割的精度和应用范围。
💡该模型引入统一输入输出格式,支持文本和视觉查询,提升用户交互体验。
🚀经过三阶段训练,X-SAM 在 20 多个数据集上达到了
最先进性能,为未来的视觉理解系统奠定基础。










