参考链接:

https://blog.csdn.net/qq_36268755/article/details/106192524?spm=1001.2014.3001.5502
https://zhuanlan.zhihu.com/p/366646884

SPP、ASPP与PPM_我不是薛定谔的猫的博客-CSDN博客_ppm 和aspp


一、多尺度与特征融合

1.多尺度:可以简单理解为不同尺寸的图像,在不同尺寸下对图像进行采样,以及特征预测的效果不一样,大物体检测需要在低分辨率上较好,也就是深层特征,具有全局的感受野。小物体在底层高分辨率的预测较好,因为一些细节比如边缘在放大后预测的结果更好。

2.特征融合:分为早融合和晚融合。先进行特征融合,然后在结合预测,如skip-connecttion,concat和add操作,例如:Unet。晚融合,在预测的时候融合多个层的预测结果,如:FPN。(探究UNet和FPN的联系与差别)

3.Unet与FPN的差异:FPN是目标检测,Unet是分割,FPN要输出很多层,Unet只在最后一层,并且上采样方式不一样,一个是直接插值,一个是上卷可以优化参数。FPN的skip connection是做add,而unet是concat。

二、常用框架分类

(1) 多尺度输入。(2) 多尺度特征融合。(3) 多尺度特征预测融合。(4) 以上方法的组合。

1.多尺度输入:多个尺度的图像输入(图像金字塔),有点像Nvidia那个注意力机制,一般的是对多个尺度的预测结果结果进行平均或者Max or pooling等,改进:在输入加上注意力机制。

(2) 多尺度特征融合:第一种是并行多分支网络,第二种是串行的跳层连接结构.

a.并行多分支:

①使用不同大小的卷积核(Inception模块如下图)
②使用空洞卷积
③使用不同大小的池化,PSPnet,金字塔池化模块(如下图)

b.串行多分支:Unet(有skip-connection结构实现特征组合

(3) 多尺度特征和预测融合(也可以只有预测):特征金字塔FPN,特征通过skip-connection传递,同时在每一层上采样的输出进行一个predict,综合各种尺度的特征预测。

三、特征金字塔系列

1、FPN(特征金字塔)

类似与Unet的结构,在目标检测中的一个模块,使用了skip-connection ,实现了多尺度特征融合和预测,是直接add相加

2、SPP(空间金字塔池化:目标检测)

何凯明大神提出的,解决RCNN中需要固定输入的图像尺寸,但是直接crop又会丢失一些信息。Fast-RCNN中的ROI pooling层实际上就是一种特殊的spatial pyramid pooling,它们思想是类似的,只是ROI pooling只用一种尺寸的网格来池化,而spatial pyramid pooling同时用了多种尺寸的网格。

3.PPM(空间金字塔池化:分割):PSPNet网络提出的一个模块

4、ASPP(空洞卷积)