目标检测常用评测集：Pascal VOC, MS COCO, Cityscapes

文章指出两阶段检测器通常在生成Proposal后进行分类的“头”(head)部分进行密集的计算，如ResNet为基础网络的Faster-RCNN将整个stage5（或两个FC）放在RCNN部分， RFCN要生成一个具有随类别数线性增长的channel数的Score map，这些密集计算正是两阶段方法在精度上领先而在推断速度上难以满足实时要求的原因。

[论文笔记]You Only Look Once: Unified, Real Time Object Detection

8 年前 Papers 4 分钟读完 (约 634 字)

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。

[论文笔记]SSD: Single Shot MultiBox Detector

8 年前 Papers 1 分钟读完 (约 215 字)

Introduction

SSD是对YOLO的改进，其达到跟两阶段方法相当的精度，又保持较快的运行速度。

[论文笔记](FPN)Feature Pyramid Networks for Object Detection

8 年前 Papers 5 分钟读完 (约 730 字)

特征金字塔本是很自然的想法，但如何构建金字塔同时平衡检测任务的定位和分类双目标，又能保证显存的有效利用，是本文做的比较好的地方。如今，FPN也几乎成为特征提取网络的标配，更说明了这种组合方式的有效性。

[论文笔记]R-FCN: Object Detection via Region-based Fully Convolutinal Networks

8 年前 Papers 5 分钟读完 (约 762 字)

文章指出了检测任务之前的框架存在不自然的设计，即全卷积的特征提取部分+全连接的分类器，而表现最好的图像分类器都是全卷积的结构（ResNet等），这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说，检测模型采用了分类模型的特征提取器，丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。

[论文笔记]MegDet: A Large Mini-Batch Object Detector

8 年前 Papers 8 分钟读完 (约 1246 字)

本篇论文介绍了旷视取得2017 MS COCO Detection chanllenge第一名的模型。提出大批量训练检测网络，并用多卡BN保证网络的收敛性。

[论文笔记]Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

8 年前 Papers 4 分钟读完 (约 545 字)

Faster R-CNN是2-stage方法的主流方法，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到SOTA。