这篇文章偏综述和实验报告的性质,前几个部分对检测模型有不错的概括,重头在实验结果部分,实验细节也描述的比较清楚,可以用来参考。
文章指出两阶段检测器通常在生成Proposal后进行分类的“头”(head)部分进行密集的计算,如ResNet为基础网络的Faster-RCNN将整个stage5(或两个FC)放在RCNN部分, RFCN要生成一个具有随类别数线性增长的channel数的Score map,这些密集计算正是两阶段方法在精度上领先而在推断速度上难以满足实时要求的原因。
YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题,并且以只处理一次图片同时得到位置和分类而得名。
文章指出了检测任务之前的框架存在不自然的设计,即全卷积的特征提取部分+全连接的分类器,而表现最好的图像分类器都是全卷积的结构(ResNet等),这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说,检测模型采用了分类模型的特征提取器,丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。
本篇论文介绍了旷视取得2017 MS COCO Detection chanllenge第一名的模型。提出大批量训练检测网络,并用多卡BN保证网络的收敛性。
Faster R-CNN是2-stage方法的主流方法,提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA。
R-CNN系列的开山之作,2-stage的想法至今仍是精确度优先方法的主流。而且,本文中的众多做法也成为检测任务pipeline的标准配置。
Update your browser to view this website correctly. Update my browser now