top5错误率:每张图片算法都会给出它认为最可能的五个类别,五个里面有一个是正确则算法预测正确。

技术爆炸1:2012年,DL和CNN用于CV;技术爆炸2:2015年,超过人类水平,网络可以更深(从图像中提取到的特征层次越丰富)

看AlexNet,ZFNet,GoogLeNet(即inception v1,既实现了网络加深,又变宽),2014年VGG(所有卷积都是3*3卷积,每一个block中卷积核个数即featuremap通道个数一样,block逐渐变深通道数翻倍,featuremap尺寸减半,同一个block中featuremap的size和个数一样,卷积核个数一样),Inception

网络退化现象:56层的网络在训练集和测试集上的误差都比20层的要高,网络变深后性能不如浅层的网络(不是梯度消失(梯度消失指根本没有开始学习,更新迭代非常缓慢,但上图可以看出误差还在减小),不是梯度爆炸,不是过拟合(过拟合指训练集上误差低,测试集上误差高,但上图可以看出在训练集和测试集上误差都大))

主要贡献:resnet引入残差模块解决了网络退化现象

两条路:左边经过两层神经网络,右边将输入原封不动传到输出,最后将残差和恒等映射逐元素求和,再用非线性relu激活。神经网络只需要拟合在原来的恒等映射的基础上进行偏移和修改的残差F(x)(不会变差,大不了残差为0,输入输出一样)(恒等映射这一路的梯度是1,可以把底层信号传到深层,把深层梯度注入底层,防止梯度消失。

resnet真正网络模型:很多个残差模块堆叠而成(152层),使网络很深,解决网络退化问题

(所有卷积用3*3,下采样用步长为2的卷积)

解释:(神经网络的可解释性)

红线(预测值)加上偏差就可以尽可能的接近真实值(蓝点)

解决网络退化的原因:

优点

易于训练(恒等映射不增加计算量,最后加和计算量很小)

易于优化

网络更深

可迁移泛化(只要涉及机器学习,需要深度提取特征 )

红字待补充

参考1