[论文笔记]Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

Faster R-CNN是2-stage方法的主流方法,提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA。

Regional Proposal Networks

faster_rcnn_arch

RPN网络将Proposal这一任务建模为二分类的问题。

第一步是在一个滑动窗口上生成不同大小和长宽比例的anchor box,取定IOU的阈值,按Ground Truth标定这些anchor box的正负。于是,传入RPN网络的样本即是anchor box和每个anchor box是否有物体。RPN网络将每个样本映射为一个概率值和四个坐标值,概率值反应这个anchor box有物体的概率,四个坐标值用于回归定义物体的位置。最后将二分类和坐标回归的Loss统一起来,作为RPN网络的目标训练。

RPN网络可调的超参还是很多的,anchor box的大小和长宽比例、IoU的阈值、每张图片上Proposal正负样本的比例等。

Alternate Training

faster_rcnn_arch

RPN网络是在feature map上进行的,因而可以跟RCNN完全共享feature extractor部分的卷积运算。训练时,RPN和RCNN的训练可以交替进行,即交替地固定RPN和RCNN部分的参数,更新另一部分。

小结

Faster R-CNN的成功之处在于用RPN网络完成了检测任务的“深度化”。使用滑动窗口生成anchor box的思想也在后来的工作中越来越多地被采用(YOLO v2等)。RPN网络也成为检测2-stage方法的标准部件。

论文链接:https://arxiv.org/abs/1506.01497

[论文笔记]MegDet: A Large Mini-Batch Object Detector [论文笔记]Fast R-CNN
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×