[论文笔记]You Only Look Once: Unified, Real Time Object Detection

12月 20 2017 Papers 4 分钟读完 (约 634 字)

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。

YOLO的主要优点：

快。
全局处理使得背景错误相对少，相比基于局部（区域）的方法，如Fast RCNN。
泛化性能好，在艺术作品上做检测时，YOLO表现好。

Design

YOLO的大致工作流程如下：
1.准备数据：将图片缩放，划分为等分的网格，每个网格按跟ground truth的IOU分配到所要预测的样本。
2.卷积网络：由GoogLeNet更改而来，每个网格对每个类别预测一个条件概率值，并在网格基础上生成B个box，每个box预测五个回归值，四个表征位置，第五个表征这个box含有物体（注意不是某一类物体）的概率和位置的准确程度（由IOU表示）。测试时，分数如下计算：

等式左边第一项由网格预测，后两项由每个box预测，综合起来变得到每个box含有不同类别物体的分数。
因而，卷积网络共输出的预测值个数为S×S×(B×5+C)，S为网格数，B为每个网格生成box个数，C为类别数。
3.后处理：使用NMS过滤得到的box