[论文笔记](Inception V3)Rethinking the Inception Architecture for Computer Vision

本文是作者推进inception结构的第2.5步。在更早的文章里,同一作者提出Batch Normalization并且用来改进了Inception结构,称为Inception-BN。而在这篇文章里,作者提出了Inception-v2和Inception-v3,两者共享同一网络结构,v3版本相比v2版本加入了RMSProp,Label Smoothing等技巧。

文章表述了Inception系列的几个设计原则,并根据这些原则改进了GoogLeNet的结构。

General Design Principles

  • Avoid representational bottlenecks, especially early in the network. 建议不要在过浅的阶段进行特征压缩,而维度只是一个表达复杂性的参考,并不能作为特征复杂性的绝对衡量标准。
  • Higher dimensional representations are easier to process locally with a network. 高阶的表示更有局部描述力,增加非线性有助于固化这些描述力。
  • Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power. 基于空间的聚合信息可以在低维空间里处理,而不必担心有太多信息损失。这一点也佐证了1×1卷积的降维作用。
  • Balance the width and depth of the network. 宽度和深度的增加都有助于网络的表达能力,最好的做法是同时在这两个方向上推进,而非只顾及一个。

Factorizing Convolution

分解一直是计算数学里经典的思路。从牛顿法到BFGS,就是把Hessian矩阵(或其逆)用一系列的向量操作来表示和近似,避免矩阵的计算。

本文提出了两种卷积结构方面的分解,一个是在卷积核的层面,另一个是在空间方面。

第一种分解是将大核卷积分解成串联的小核卷积。

factor5

用两个3×3的卷积代替5×5的卷积,带来的参数减少为(9+9)/(5×5).

第二种分解是在卷积核本身上,引入非对称卷积:用3×1和1×3的卷积串联代替3×3卷积。如下图所示。

factor3

这种分解也可以推广到n维情况,且n越大,带来的收益越明显。

空间上的卷积分解建模了这样的情形:两个方向上的卷积参数互相正交,便被空间分解卷积解耦。

factor5

Utility of Auxiliary Classifiers

在GoogLeNet中,作者用loss监督了低维的特征图的学习,但进一步的实验发现,加入BN层后,这些增益被抵消了,于是Auxiliary Classifier可被看做是某种正则化技术,在加入BN的网络中便不再应用。

Efficient Grid Size Reduction

这一节讨论网络中的特征降维,即下采样的过程,通常由卷积层或Pooling层的stride参数控制。文章为避免原则一中提到的Representation Bottleneck,在进行Pooling之前将网络加宽(通过Channel数的增加),这也对应了平衡宽度和深度的原则。

最终结合了Inception结构和下采样需求的单元如下:

factor5

不同于Inception单元,上面的1×1卷积扩展了Channel,并且3×3卷积采用了stride=2。

Inception-v2 & Inception-v3 Architecture

factor5

可以看到随深度增加,Channel数也在扩展,而Inception单元也遵从了堆叠的范式。

其中三种Inception单元分别为:

factor5

factor5

factor5

另外,也可以查看NetScope Vis来熟悉Inception-v3的结构,源文件位于awesome_cnn

Experiments

下面是Inception结构演化带来的增益分解:

factor5

Conclusion

本篇是对Inception系网络的推进,其分解的思想成为又一网络设计的指导原则。

对卷积的进一步理解,可以参考这个页面,这一工具可视化了不同卷积核对输入的处理,给出的例子都是在早期人们手工设计的滤波器,而深度网络隐式地学习到了这些滤波器的卷积表达。

论文链接:https://arxiv.org/abs/1512.00567

[论文笔记]You Only Look Once: Unified, Real Time Object Detection [论文笔记]SSD: Single Shot MultiBox Detector
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×