[论文笔记]R-FCN: Object Detection via Region-based Fully Convolutinal Networks

文章指出了检测任务之前的框架存在不自然的设计,即全卷积的特征提取部分+全连接的分类器,而表现最好的图像分类器都是全卷积的结构(ResNet等),这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说,检测模型采用了分类模型的特征提取器,丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。

Position-sensitive score maps & Position-sensitive RoI Pooling

位置敏感分数图的生成有两个重要操作,一是生成更“厚”的feature map,二是在RoI Pooling时选择性地输入feature map。

arch

Faster R-CNN中,经过RPN得到RoI,转化成分类任务,还加入了一定量的卷积操作(ResNet中的conv5部分),而这一部分卷积操作是不能共享的。R-FCN则着眼于全卷积结构,利用卷积操作在Channel这一维度上的自由性,赋予其位置敏感的意义。下面是具体的操作:

  • 在全卷积网络的最后一层,生成k^2(C+1)个Channel的Feature map,其中C为类别数,k^2代表k×k网格,用于分别检测目标物体的k×k个部分。即是用不同channel的feature map代表物体的不同局部(如左上部分,右下部分)。
  • 将RPN网络得到的Proposal映射到上一步得到的feature map(厚度为k×k×(C+1),)后,相应的,将RoI等分为k×k个bin,对第(i,j)个bin,仅考虑对应(i,j)位置的(C+1)个feature map,进行如下计算:其中(x0,y0)是这个RoI的锚点,得到的即是(i,j)号bin对C类别的相应分数。
  • 经过上一步,每个RoI得到的结果是k^2(C+1)大小的分数张量,k×k编码着物体的局部分数信息,进行vote(平均)后得到(C+1)维的分数向量,再接入softmax得到每一类的概率。

上面第二步操作中“仅选取第(i, j)号feature map”是位置信息产生意义的关键。

这样设计的网络结构,所有可学习的参数都分布在可共享的卷积层,因而在训练和测试性能上均有提升。

小结

R-FCN是对Faster R-CNN结构上的改进,部分地解决了位置不变性和位置敏感性的矛盾。通过最大化地共享卷积参数,使得在精度相当的情况下训练和测试效率都有了很大的提升。

论文链接:https://arxiv.org/abs/1605.06409

[论文笔记](FPN)Feature Pyramid Networks for Object Detection [论文笔记](GoogLeNet)Going deeper with convolutions
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×