参考链接:
https://blog.csdn.net/qq_36268755/article/details/106192524?spm=1001.2014.3001.5502
https://zhuanlan.zhihu.com/p/366646884
SPP、ASPP与PPM_我不是薛定谔的猫的博客-CSDN博客_ppm 和aspp
一、多尺度与特征融合
1.多尺度:可以简单理解为不同尺寸的图像,在不同尺寸下对图像进行采样,以及特征预测的效果不一样,大物体检测需要在低分辨率上较好,也就是深层特征,具有全局的感受野。小物体在底层高分辨率的预测较好,因为一些细节比如边缘在放大后预测的结果更好。
2.特征融合:分为早融合和晚融合。先进行特征融合,然后在结合预测,如skip-connecttion,concat和add操作,例如:Unet。晚融合,在预测的时候融合多个层的预测结果,如:FPN。(探究UNet和FPN的联系与差别)
3.Unet与FPN的差异:FPN是目标检测,Unet是分割,FPN要输出很多层,Unet只在最后一层,并且上采样方式不一样,一个是直接插值,一个是上卷可以优化参数。FPN的skip connection是做add,而unet是concat。
二、常用框架分类
(1) 多尺度输入。(2) 多尺度特征融合。(3) 多尺度特征预测融合。(4) 以上方法的组合。
1.多尺度输入:多个尺度的图像输入(图像金字塔),有点像Nvidia那个注意力机制,一般的是对多个尺度的预测结果结果进行平均或者Max or pooling等,改进:在输入加上注意力机制。
(2) 多尺度特征融合:第一种是并行多分支网络,第二种是串行的跳层连接结构.
a.并行多分支:
①使用不同大小的卷积核(Inception模块如下图)
②使用空洞卷积
③使用不同大小的池化,PSPnet,金字塔池化模块(如下图)
b.串行多分支:Unet(有skip-connection结构实现特征组合
(3) 多尺度特征和预测融合(也可以只有预测):特征金字塔FPN,特征通过skip-connection传递,同时在每一层上采样的输出进行一个predict,综合各种尺度的特征预测。
三、特征金字塔系列
1、FPN(特征金字塔)
类似与Unet的结构,在目标检测中的一个模块,使用了skip-connection ,实现了多尺度特征融合和预测,是直接add相加
2、SPP(空间金字塔池化:目标检测)
何凯明大神提出的,解决RCNN中需要固定输入的图像尺寸,但是直接crop又会丢失一些信息。Fast-RCNN中的ROI pooling层实际上就是一种特殊的spatial pyramid pooling,它们思想是类似的,只是ROI pooling只用一种尺寸的网格来池化,而spatial pyramid pooling同时用了多种尺寸的网格。
3.PPM(空间金字塔池化:分割):PSPNet网络提出的一个模块
4、ASPP(空洞卷积)