论文阅读——SqueezeSAM

SqueezeSAM: User-Friendly Mobile Interactive Segmentation

比SAM更小,更快。

图片[1] - 论文阅读——SqueezeSAM - MaxSSL

框架:

图片[2] - 论文阅读——SqueezeSAM - MaxSSL

图片[3] - 论文阅读——SqueezeSAM - MaxSSL

使用的U型结构

图片[4] - 论文阅读——SqueezeSAM - MaxSSL

图片[5] - 论文阅读——SqueezeSAM - MaxSSL

使用BatchNorm而不是LayerNorm节省计算;

对于用户点击和框,单独作为通道,前融合和后融合(sam只有后融合)。

训练:

训练时每个图片随机选8个masks,改变了点击送入模型的方式,原始sam模型训练时每个批次点击一次得到一个点击样本,然后模型再运行,因此一个批次运行了很多步,增加了训练时间,因此本文模型简单的一个批次收集一些点,然后训练一步。

实验结果:

图片[6] - 论文阅读——SqueezeSAM - MaxSSL

图片[7] - 论文阅读——SqueezeSAM - MaxSSL

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享