#Object Detection

如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。

阅读更多

本文是Bootstrapping(自助采样)在深度网络中的应用。两阶段网络由于其多步的特性,在RCNN子网络的计算前会有对RoI的整理过程,早期工作中,Fast R-CNN利用随机上采样和下采样的方法来维持正负样本比例,而本文提出的方法则使得网络具有挑选“好的”正负样本的能力。

阅读更多

文章指出两阶段检测器通常在生成Proposal后进行分类的“头”(head)部分进行密集的计算,如ResNet为基础网络的Faster-RCNN将整个stage5(或两个FC)放在RCNN部分, RFCN要生成一个具有随类别数线性增长的channel数的Score map,这些密集计算正是两阶段方法在精度上领先而在推断速度上难以满足实时要求的原因。

阅读更多

特征金字塔本是很自然的想法,但如何构建金字塔同时平衡检测任务的定位和分类双目标,又能保证显存的有效利用,是本文做的比较好的地方。如今,FPN也几乎成为特征提取网络的标配,更说明了这种组合方式的有效性。

阅读更多

文章指出了检测任务之前的框架存在不自然的设计,即全卷积的特征提取部分+全连接的分类器,而表现最好的图像分类器都是全卷积的结构(ResNet等),这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说,检测模型采用了分类模型的特征提取器,丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。

阅读更多

Faster R-CNN是2-stage方法的主流方法,提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA。

阅读更多

Fast R-CNN 是对R-CNN的改进,作者栏只有RBG一人。文章先指出了R-CNN存在的问题,再介绍了自己的改进思路。文章结构堪称典范,从现存问题,到解决方案、实验细节,再到结果分析、拓展讨论,条分缕析,值得借鉴。而且,RBG开源的代码也影响了后来大部分这一领域的工作。

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×