前言
卷积神经网络发展非常迅速,应用非常广阔,所以近几年的卷积神经网络得到了长足的发展,下图为卷积神经网络近几年发展的大致轨迹。
1998年LeCun提出了 LeNet,可谓是开山鼻祖,系统地提出了卷积层、 池化层、全连接层等概念。2012年Alex等提出 AlexNet,提出 一些训练深度网络的重要方法或技巧,如 Dropout、ReLu、GPU、数据增强方法等,随后各种各样的深度卷积神经网络模型相继被提出,其中比较有代表性的有 VGG 系列,GoogLeNet 系列,ResNet 系列,DenseNet 系列等,他们的网络层数整体趋势逐渐增多。以网络模型在 ILSVRC 挑战赛 ImageNet数据集上面的分类性能表现为例,如下图,在 AlexNet 出现之前的网络模型都是浅层的神经网络,Top-5(表示神经网络返回的前5个最大概率值代表的内容中有一个是正确的)错误率均在 25%以上,AlexNet 8 层的深层神经网络将 Top-5 错误率降低至 16.4%,性能提升巨大,后续的 VGG、GoogleNet 模型继续将错误率降低至 6.7%;ResNet 的出现首次将网络层数提升至 152 层,错误率也降低至 3.57%。
LeNet-5
LeNet 是Yann LeCun等人提出的卷积神经网络结构,用于解决手写数字识别的机器视觉任务。1989年。一般来说,LeNet 是指 LeNet-5,是一个简单的卷积神经网络。卷积神经网络是一种前馈神经网络,其人工神经元可以对覆盖范围内的一部分周围细胞做出反应,在大规模图像处理中表现良好。LeNet 作为早期卷积神经网络的代表,拥有卷积神经网络的基本单元,如卷积层、池化层和全连接层,为卷积神经网络的未来发展奠定了基础。
模型架构:LeNet-5 模型结构为 输入层-卷积层-池化层-卷积层-池化层-全连接层-全 连接层-输出,为串联模式。
模型特点:
- 每个卷积层包括三个部分:卷积、池化和非线性激活函数;
- 使用卷积提取空间特征;
- 采用降采样的平均池化层;
- 使用 tanh 激活函数;
- 使用 MLP 作为最后一个分类器;
- 层间稀疏连接,降低计算复杂度。
AlexNet
2012 年,ILSVRC12 挑战赛 ImageNet 数据集分类任务的冠军 Alex Krizhevsky 提出了 8
层的深度神经网络模型 AlexNet。AlexNet 在 ImageNet 取得了 15.3% 的 Top-5 错误率,比第二名在错误率上降低了 10.9%。原始论文的主要结果是模型的深度对其高性能至关重要,这在计算上是昂贵的,但由于在训练过程中使用了图形处理单元(GPU) 而变得可行。
模型架构:接收输入为 224 × 224 大小的彩色图片数据,经过五个卷积层和三个全连接层后得到样本属于 1000 个类别的概率分布。为了降低特征图的维度,AlexNet 在第 1、2、5 个卷积层后添加了 Max Pooling 层,网络的参数量达到了 6000 万个。为了能够在当时的显卡设备 NVIDIA GTX 580(3GB 显存)上训练模型,Alex Krizhevsky 将卷积层、前 2 个全连接层等拆开在两块显卡上面分别训练,最后一层合并到一张显卡上面,进行反向传播更新。
模型特点:
- 由 5 层卷积和 3 层全连接组成,输入图像为 3 通道 224×224 大小,网络规 模远大于 LeNet;
- 采用了 ReLU 激活函数,过去的神经网络大多采用 Sigmoid 激活函数,计算相对复杂,容易出现梯度弥散现象。
- 引入 Dropout 层。Dropout 提高了模型的泛化能力,防止过拟合,提升模型的鲁棒性。
- 具备一些很好的训练技巧,包括数据增广、学习率策略、Weight Decay 等。
VGG
AlexNet 模型的优越性能启发了业界朝着更深层的网络模型方向研究。2014 年,ILSVRC14 挑战赛 ImageNet 分类任务的亚军牛津大学 VGG 实验室提出了 VGG11、VGG13、VGG16、VGG19 等一系列的网络模型,如下图。VGG可以看成是加深版本的AlexNet,都是 Conv Layer + FC layer,VGG16 在 ImageNet 取得了 7.4%的 Top-5 错误率,比 AlexNet 在错误率上降低了 7.9%。
模型架构:以 VGG16 为例,它接受 224 × 224 大小的彩色图片数据,经过 2 个 Conv-Conv-Pooling 单元,和 3 个 Conv-Conv-Conv-Pooling 单元的堆叠,最后通过 3 层全连接层输出当前图片分别属于 1000 类别的概率分布。
模型特点:
- 更深的网络结构:网络层数由 AlexNet 的 8 层增至 16 和 19 层,更深的网络意味着更强大的网络能力,也意味着需要更强大的计算力,不过后来硬件发展也很快,显卡运算力也在快速增长,以此助推深度学习的快速发展。
- 全部采用更小的 3 × 3 卷积核,相对于 AlexNet 中 7 × 7 的卷积核,参数量更少,计算代价更低。
- 采用更小的池化层 2 × 2 窗口和步长 $\boldsymbol{s = 2}$,而 AlexNet 中是步长 $\boldsymbol{𝑠 = 2、3 × 3}$ 的池化窗口。
GoogleNet
在介绍 GoogleNet 之前,我们需要对卷积核进行讨论。再前面说过 VGG 模型使用的卷积核大小均是 3 × 3,参数量更少,计算代价更低,同时因为两个 3 × 3 卷积核的感受野相当于一个 5 × 5 卷积核,能捕获图像更多的细节信息,因此 3 × 3 卷积核在性能表现上更优越。因此业界开始探索卷积核最小的情况:1 × 1 卷积核。
上图中,输入为 3 通道的 5 × 5 图片,与单个 1 × 1 的卷积核进行卷积运算,每个通道的数据与对应通道的卷积核运算,得到 3 个通道的中间矩阵,对应位置相加得到最终的输出张量。对于输入 shape 为 $\boldsymbol{[b, h,w,c_{in}]}$,1 × 1 卷积层的输出为 $\boldsymbol{[b, h,w,c_{out}]}$,其中 $\boldsymbol{c_{in}}$ 为输入数据的通道数,$\boldsymbol{c_{out}}$ 为输出数据的通道数,也是 1 × 1 卷积核的数量。 1 × 1 卷积核的一个特别之处在于,它可以不改变特征图的宽高,而只对通道数 $\boldsymbol{c}$ 进行变换。这起到了降维的作用,因此 1 × 1 卷积核可以帮助我们降低参数数量。
2014 年,ILSVRC14 挑战赛的冠军 Google 提出了大量采用 3 × 3 和1 × 1 卷积核的网络模型:GoogLeNet,网络层数达到了 22 层。虽然 GoogLeNet 的层数远大于 AlexNet,但是它的参数量却只有 AlexNet 的 $\boldsymbol{\frac{1}{12}}$,同时性能也远好于 AlexNet。在 ImageNet 数据集分类任务上,GoogLeNet 取得了 6.7%的 Top-5 错误率,比 VGG16 在错误率上降低了 0.7%。
模型架构:VGG 是增加网络的深度,但深度达到一个程度时,可能就成为瓶颈。 GoogLeNet 则从另一个维度来增加网络能力,每单元有许多层并行计算,让网络更宽了。GoogLeNet 网络通过大量堆叠 Inception 模块,形成了复杂的网络结构,如下图。
上图中,Inception 模块的输入为 $\boldsymbol{X}$,通过 4 个子网络得到 4 个网络输出,在通道轴上面进行拼接合并,形成 Inception 模块的输出。这 4 个子网络为:
- 1 × 1 卷积层;
- 1 × 1 卷积层,再通过一个 3 × 3 卷积层;
- 1 × 1 卷积层,再通过一个 5 × 5 卷积层;
- 3 × 3 最大池化层,再通过 1 × 1 卷积层。
GoogLeNet 的网络结构如下图所示,其中红色框中的网络结构即为 Inception 模块的网络结构。
模型特点:
- 引入 Inception 结构,这是一种网中网(Network In Network)的结构。通过网络的水平排布,可以用较浅的网络得到较好的模型能力,并进行多特征融合,同时更容易训练。使用了 1 × 1 卷积来先对特征通道进行降维,减少计算量。GoogLeNet 就是一个精心设计的性能良好的 Inception 网络(Inception v1)的 实例,即 GoogLeNet 是 Inception v1 网络的一种。
- 采用全局平均池化层。将后面的全连接层全部替换为简单的全局平均池化,在最后参数会变得更少。而在 AlexNet 中最后 3 层的全连接层参数差不多占总参数的 90%,使用大网络在宽度和深度上允许 GoogleNet 移除全连接层,但并不会影响到结果的精度。
ResNet
AlexNet、VGG、GoogLeNet 等网络模型的出现将神经网络的发展带入了几十层的阶段,研究人员发现网络的层数越深,越有可能获得更好的泛化能力。但是当模型加深以后,网络变得越来越难训练,这主要是由于梯度弥散和梯度爆炸现象造成的。在较深层数的神经网络中,梯度信息由网络的末层逐层传向网络的首层时,传递的过程中会出现梯度接近于 0 或梯度值非常大的现象。网络层数越深,这种现象可能会越严重。对于深层神经网络的梯度弥散和梯度爆炸现象,我们可以想到浅层神经网络不容易出现这些梯度现象,那么可以尝试给深层神经网络添加一种回退到浅层神经网络的机制。当深层神经网络可以轻松地回退到浅层神经网络时,深层神经网络可以获得与浅层神经网络相当的模型性能,而不至于更糟糕。
2015 年,微软亚洲研究院何凯明等人发表了深度残差网络(Residual Neural Network,简称 ResNet)算法 [10],并提出了 18 层、34 层、50 层、101层、152 层的 ResNet-18、ResNet-34、ResNet-50、ResNet-101 和 ResNet-152 等模型。ResNet 在网络结构上做了一大创新,即采用残差网络结构,而不再是简单地堆积层数,ResNet 在卷积神经网络中提供了一个新思路。ResNet 在 ILSVRC 2015 挑战赛 ImageNet数据集上的分类、检测等任务上面均获得了最好性能。
原理
ResNet 通过在卷积层的输入和输出之间添加残差链接实现层数回退机制。
上图中,输入 $\boldsymbol{x}$ 通过两个卷积层,得到特征变换后的输出 $\boldsymbol{F(𝒙)}$,与输入 $\boldsymbol{x}$ 进行对应元素的相加运算,得到最终输出 $\boldsymbol{H(x)}$:
$\boldsymbol{H(x)}$ 叫作残差模块(Residual Block,简称 ResBlock),由于卷积神经网络需要学习映射 $\boldsymbol{F(x) = H(x) - x}$,故称为残差网络。为了能够满足输入 $\boldsymbol{x}$ 与卷积层的输出出 $\boldsymbol{F(𝒙)}$ 能够相加运算,需要输入 $\boldsymbol{x}$ 的 shape 与 $\boldsymbol{F(𝒙)}$ 的完全一致。当出现 shape 不一致时,一般通过在残差连接上添加额外的卷积运算环节将输入 $\boldsymbol{x}$ 变换到与 $\boldsymbol{F(𝒙)}$ 相同的 shape,如上图中 $\boldsymbol{dentity(𝒙)}$ 函数。因为再卷积过程中我们常常使用 Vaild卷积,因此 $\boldsymbol{dentity(𝒙)}$ 以1 × 1的卷积运算居多,主要用于调整输入的通道数。
模型架构:34 层的深度残差网络、34 层的普通深度网络以及 19 层的 VGG 网络结构如下图。可以看到,深度残差网络通过堆叠残差模块,达到了较深的网络层数,从而获得了训练稳定、性能优越的深层网络模型。
模型特点:
- 层数非常深,已经超过百层;
- 引入残差单元来解决退化问题。
DenseNet
DenseNet 将前面所有层的特征图信息通过 Skip Connection 与当前层输出进行聚合,与 ResNet 的对应位置相加方式不同,DenseNet 采用在通道轴 $\boldsymbol{c}$ 维度进行拼接操作,聚合特征信息。
上图中,输入 $\boldsymbol{X}$ 通过 $\boldsymbol{H_1}$ 卷积层得到输出 $\boldsymbol{X_1}$,$\boldsymbol{X_1}$ 与 $\boldsymbol{X}$ 在通道轴上进行拼接,得到聚合后的特征张量,送入 $\boldsymbol{H_2}$ 卷积层,得到输出 $\boldsymbol{X_2}$,同样的方法,$\boldsymbol{X_2}$ 与前面所有层的特征信息 $\boldsymbol{X_1}$ 与 $\boldsymbol{X}$ 进行聚合,再送入下一层。如此循环,直至最后一层的输出 $\boldsymbol{X_4}$ 和前面所有层的特征信息:$\boldsymbol{\{X_i\}_{i = 0, 1, 2 ,3}}$进行聚合得到模块的最终输出。
模型架构:DenseNet 通过堆叠多个 Dense Block 构成复杂的深层神经网络。
模型特点:
- 引入来稠密连接模块解决退化问题。
不同版本的 DenseNet 的性能、DenseNet 与 ResNet 的性能比较,以及DenseNet 与 ResNet 训练曲线比较如下: