X-SAM:统一图像分割多模态大模型,20+图像分割数据集上均达SoTA
liuian 2025-09-11 23:02 19 浏览
本研究由中山大学、鹏城实验室、美团联合完成,第一作者王豪为中山大学博士研究生,主要研究方向为图像和视频分割、开放场景视觉感知、多模态大模型等。论文共同通讯作者为梁小丹教授和蓝湘源副研究员。
背景与动机
Segment Anything Model (SAM) 作为基础分割模型在密集分割掩码生成方面表现卓越,但其依赖视觉提示的单一输入模式限制了在广泛图像分割任务中的适用性。多模态大语言模型(MLLMs)虽在图像描述、视觉问答等任务中表现出色,但输出局限于文本生成,无法直接处理像素级视觉任务,这一根本性限制阻碍了通用化模型的发展。
中山大学、鹏城实验室、美团联合提出 X-SAM—— 一个统一的图像分割多模态大模型,将分割范式从 「分割万物」扩展到 「任意分割」。X-SAM 引入了统一框架,使 MLLMs 具备高级像素级感知理解能力。研究团队提出了视觉定位分割(Visual Grounded Segmentation, VGS)新任务,通过交互式视觉提示分割所有实例对象,赋予 MLLMs 视觉定位的像素级理解能力。为支持多样化数据源的有效训练,X-SAM 采用统一训练策略,支持跨数据集联合训练。实验结果显示,X-SAM 在广泛的图像分割基准测试中达到最先进性能,充分展现了其在多模态像素级视觉理解方面的优越性。
- 论文地址:https://arxiv.org/pdf/2508.04655
- 代码地址:https://github.com/wanghao9610/X-SAM
- Demo地址: http://47.115.200.157:7861
方法设计
X-SAM 设计了通用输入格式和统一输出表示:
1)文本查询输入(Text Query):
- 适用于通用分割、开放词汇分割、指代分割、GCG 分割、推理分割
- 采用特殊短语标记 < p > 和 </p > 标注类别 / 短语 / 句子
- 格式化为:"<p>category/phrase/sentence</p>"
2)视觉查询输入(Vision Query):
- 适用于交互式分割和 VGD 分割任务
- 支持点、涂鸦、边界框、掩码等多种视觉提示形式
- 使用专用标记 < region > 表示视觉提示
- 格式化为:"<p><region></p>"
3)统一输出表示:
- 引入特殊标记 < SEG > 表示分割结果
- <p > 和 </p > 标记间的潜在语言嵌入作为分割解码器的条件嵌入
X-SAM 采用端到端的统一分割 MLLM 架构,包含以下核心组件:
1)双编码器设计(Dual Encoders)
- 图像编码器:采用 SigLIP2-so400m 提取全局图像特征,提升图像理解能力。
- 分割编码器:采用 SAM-L 提取细粒度图像特征,提升图像分割效果。
2)双映射器架构(Dual Projectors)
为增强 LLM 的图像理解能力,X-SAM 采用特征融合策略。
- 分割特征投影:利用像素重排(pixel-shuffle)操作减少空间尺寸,通过 MLP 投影到语言嵌入空间
- 图像特征投影:直接通过 MLP 投影与分割特征连接后输入 LLM
3)分割连接器(Segmentation Connector)
针对图像分割任务对细粒度多尺度特征的需求,设计了分割连接器,为分割解码器提供丰富的多尺度信息。
- 下采样路径:通过 0.5 倍像素重排生成 1/32 尺度特征;
- 上采样路径:通过 2.0 倍像素重排生成 1/8 尺度特征;
- 原始特征:保持 1/16 尺度特征。
4)统一分割解码器(Segmentation Decoder)
替换 SAM 原始解码器,采用 Mask2Former 解码器架构。
- 模块优势:支持单次分割所有对象,克服 SAM 单对象分割限制。
- 模块特点:引入潜在背景嵌入表示所有任务的 "忽略" 类别,实现一个解码器适配所有分割任务。
X-SAM 采用三阶段渐进式训练策略来优化多样化图像分割任务的性能:
1)第一阶段:分割器微调(Segmentor Fine-tuning)
2)第二阶段:对齐预训练(Alignment Pre-training)
3)第三阶段:混合微调(Mixed Fine-tuning)
针对训练数据集规模差异(0.2K 到 665K 样本),X-SAM 采用数据集平衡重采样策略:
其中 t 为控制过采样比例的超参数,f_d 为数据集 d 的频率。在混合训练过程中,根据 r_d 对数据集 d 进行重采样,改善在少样本数据集上的性能。
实验结果
综合性能指标
X-SAM 在超过 20 个分割数据集上进行了全面评估,涵盖 7 种不同的图像分割任务,实现了全任务最优性能。
部分关键任务性能指标
指代分割任务:
对话生成分割任务:
视觉定位分割任务:
图文理解任务:
可视化结果展示
总结与展望
X-SAM 作为首个真正统一的分割多模态大语言模型,成功实现了从「segment anything」到「any segmentation」的重要跨越。通过创新的 VGD 分割任务、统一架构设计和渐进式训练策略,X-SAM 在保持各项任务竞争性能的同时,实现了更广泛的任务覆盖范围,为图像分割研究开辟了新方向,并为构建通用视觉理解系统奠定了重要基础。未来研究方向可以聚焦于视频领域的扩展。一是与 SAM2 集成实现图像和视频的统一分割,进一步扩展应用范围;二是将 VGD 分割扩展到视频中,引入视频中的时序信息,构建创新的视频分割任务,为视频理解技术发展提供新的可能性。
相关推荐
- 联想笔记本光驱驱动下载(联想电脑光驱驱动器在哪)
-
开机时进入BIOS,具体按什么牌子不同,按键也不同,开机有提示的,选择启动项,把光驱启动的顺序放到第一.按F10保存,重新启动就是光驱启动啦不需要设置光驱驱动,笔记本自带光驱驱动光驱是电脑的硬件设备,...
- win10装机必备实用软件(win10电脑装机必备软件)
-
1、office大部分的版本如office2007、office2000、office2011、office2013、office2016、office365等都支持win10。2、需要注意...
- 迅雷无法下载的链接用什么下载
-
1.可以使用其他下载工具代替迅雷。2.迅雷可能无法下载的原因有很多,比如网络问题、软件故障等。其他下载工具可以提供类似的功能,但可能具有更好的稳定性和兼容性。3.一些常见的替代迅雷的下载工具包括...
- apple官方网站(apple官方网站旗舰店)
-
1、首先打开浏览器,输入https://www.apple.com/;2、即可浏览苹果官网。 苹果公司(AppleInc.)是美国一家高科技公司。由史蒂夫·乔布斯、斯蒂夫·沃兹尼亚克和罗·韦恩(R...
- 哪些手机用鸿蒙系统(都什么手机能用鸿蒙系统)
-
截至目前,国内有以下几款手机品牌可以装鸿蒙系统:1.华为:华为Mate40系列、P40系列、Mate30系列、MatePadPro系列等。2.荣耀:荣耀V40、荣耀30系列、荣耀X10系列等...
- 手机u盘读不出来了怎么修复(手机u盘读取不出来)
-
1、手机不支持OTG功能,所以将U盘连接到手机后,手机无法识别U盘的内容,因此显示不了;这种情况只能换台支持OTG功能的手机来连接U盘才行。2、手机支持OTG功能,但是使用的OTG线质量有问题导致无法...
- 笔记本散热器买哪种好(笔记本散热器买哪种好贴吧)
-
散热器有十大品牌:九州风神、超频三,酷冷至尊Tt、AVC、思民、捷冷、安钛克Antec、安耐美Enermax、海盗船Corsair。能位列十大品牌,每一种的质量和功能都有保障。、目前网上销量最高的是九...
-
- 打印机驱动一直安装失败(打印机驱动一直安装失败怎么办)
-
打印机驱动程序安装失败需要对电脑进行其他设置,详细步骤如下:1,在电脑桌面上找到【计算机】并用鼠标右击。2,右击后在出现的选项中找到【管理】选项并点击打开。3,接下里会进入到计算机控制台界面,在这里要根据自己的电脑选择64位或者32位,选择...
-
2026-01-14 12:55 liuian
- ctrl加谁是截图(ctrl和什么键可以截图)
-
第一种:Ctrl+PrScrn使用这个组合键截屏,获得的是整个屏幕的图片第二种:Alt+PrScrn这个组合键截屏,获得的结果是当前窗口的图片第三种:打开qq,使用快捷键Ctrl+...
- 技嘉主板bios设置启动顺序(技嘉主板bios设置启动顺序怎么设置)
-
启动顺序设置方法如下:1、重启电脑连续按[DEL]键进入BIOS设置,按DEL进入BIOS设置。2、按键盘方向键右键切换到BOOT选项,将windows10功能设置为"其它操作系统"...
-
- 目前台式电脑主机怎么选(台式主机选择)
-
每个人对电脑的性需要不同,因此根据自己家的家庭需要,选择合适的电脑即可。以下简单说明:1,双核处理器+2G内存+集成显卡+机械硬盘。性能满足上网、看电影、聊天、办公、玩象棋之类的小游戏。价格在2000以内可以买到;2,四核处理器+4G内存+...
-
2026-01-14 12:05 liuian
- 台式电脑如何用u盘重装系统(台式电脑如何用u盘重装系统应用)
-
1、重启电脑并进入BIOS;2、在BIOS中设置启动顺序,优先从U盘启动;3、从U盘启动,进入安装界面;4、选择安装语言、时区和键盘设置;5、选择安装方式,一般选择“清除整个硬盘并安装”;6、配置分区...
-
- stop0x0000007b蓝屏(stop0X0000007b蓝屏,修改注册表)
-
步骤/方式1将电脑送到当地的维修店步骤/方式2然后将师傅维修一下蓝屏的问题当电脑启动蓝屏出现错误代码0x0000007b时,首先我们将电脑重启,在开机时不停按启动热键进入到bios设置页面,进入页面后找到“IntegratedPeriphe...
-
2026-01-14 11:21 liuian
- 一周热门
-
-
飞牛OS入门安装遇到问题,如何解决?
-
如何在 iPhone 和 Android 上恢复已删除的抖音消息
-
Boost高性能并发无锁队列指南:boost::lockfree::queue
-
大模型手册: 保姆级用CherryStudio知识库
-
用什么工具在Win中查看8G大的log文件?
-
如何在 Windows 10 或 11 上通过命令行安装 Node.js 和 NPM
-
威联通NAS安装阿里云盘WebDAV服务并添加到Infuse
-
Trae IDE 如何与 GitHub 无缝对接?
-
idea插件之maven search(工欲善其事,必先利其器)
-
如何修改图片拍摄日期?快速修改图片拍摄日期的6种方法
-
- 最近发表
- 标签列表
-
- python判断字典是否为空 (50)
- crontab每周一执行 (48)
- aes和des区别 (43)
- bash脚本和shell脚本的区别 (35)
- canvas库 (33)
- dataframe筛选满足条件的行 (35)
- gitlab日志 (33)
- lua xpcall (36)
- blob转json (33)
- python判断是否在列表中 (34)
- python html转pdf (36)
- 安装指定版本npm (37)
- idea搜索jar包内容 (33)
- css鼠标悬停出现隐藏的文字 (34)
- linux nacos启动命令 (33)
- gitlab 日志 (36)
- adb pull (37)
- python判断元素在不在列表里 (34)
- python 字典删除元素 (34)
- vscode切换git分支 (35)
- python bytes转16进制 (35)
- grep前后几行 (34)
- hashmap转list (35)
- c++ 字符串查找 (35)
- mysql刷新权限 (34)
