目标检测常用评测集：Pascal VOC, MS COCO, Cityscapes

本文是MobileNets的第二版。第一版中，MobileNets全面应用了Depth-wise Seperable Convolution并提出两个超参来控制网络容量，在保持移动端可接受的模型复杂性的基础上达到了相当的精度。而第二版中，MobileNets应用了新的单元：Inverted residual with linear bottleneck，主要的改动是添加了线性Bottleneck和将skip-connection转移到低维bottleneck层。

[论文笔记](ResNeXt)Aggregated Residual Transformations for Deep Neural Networks

8 年前 Papers 4 分钟读完 (约 578 字)

本文提出了深度网络的新维度，除了深度、宽度（Channel数）外，作者将在某一层并行transform的路径数提取为第三维度，称为”cardinality”。跟Inception单元不同的是，这些并行路径均共享同一拓扑结构，而非精心设计的卷积核并联。除了并行相同的路径外，也添加了层与层间的shortcut connection。但由于其多路径的设计特征，我将其归为Inception系网络。

[论文笔记]MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

8 年前 Papers 3 分钟读完 (约 500 字)

MobileNets系列可以看做是继Xception之后对Depthwise Separable Convolution的又一推动。利用深度可分离的特征，MobileNets系列引入两个模型精度和大小的超参，在保持相当精度的同时享有非常小的计算消耗，适用于移动端情形，因而被命名为”MobileNets”。

[论文笔记]Xception: Deep Learning with Depthwise Seperable Convolutions

8 年前 Papers 3 分钟读完 (约 501 字)

本篇是keras库作者的文章，对Inception结构进行了改进：用Depth-wise seperable convolution替换了Inception单元中的1×1卷积和3×3卷积。

文章对Inception结构的评论非常有见地。

[论文笔记]Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

8 年前 Papers 2 分钟读完 (约 318 字)

在15年，ResNet成为那年最耀眼的卷积网络结构，skip-connection的结构也成为避不开的考虑选项。Inception系列也参考ResNet更新了自己的结构。同时推出了第四代和跟ResNet的结合版：Inception-v4和Inception-ResNet。

[论文笔记]Speed/accuracy trade-offs for modern convolutional object detectors

8 年前 Papers 9 分钟读完 (约 1371 字)

这篇文章偏综述和实验报告的性质，前几个部分对检测模型有不错的概括，重头在实验结果部分，实验细节也描述的比较清楚，可以用来参考。

[论文笔记]Light-Head R-CNN: In Defense of Two-Stage Object Detector

8 年前 Papers 6 分钟读完 (约 920 字)

文章指出两阶段检测器通常在生成Proposal后进行分类的“头”(head)部分进行密集的计算，如ResNet为基础网络的Faster-RCNN将整个stage5（或两个FC）放在RCNN部分， RFCN要生成一个具有随类别数线性增长的channel数的Score map，这些密集计算正是两阶段方法在精度上领先而在推断速度上难以满足实时要求的原因。

[论文笔记]You Only Look Once: Unified, Real Time Object Detection

8 年前 Papers 4 分钟读完 (约 634 字)

YOLO是单阶段方法的开山之作。它将检测任务表述成一个统一的、端到端的回归问题，并且以只处理一次图片同时得到位置和分类而得名。

[论文笔记](Inception V3)Rethinking the Inception Architecture for Computer Vision

8 年前 Papers 8 分钟读完 (约 1191 字)

本文是作者推进inception结构的第2.5步。在更早的文章里，同一作者提出Batch Normalization并且用来改进了Inception结构，称为Inception-BN。而在这篇文章里，作者提出了Inception-v2和Inception-v3，两者共享同一网络结构，v3版本相比v2版本加入了RMSProp，Label Smoothing等技巧。

[论文笔记]SSD: Single Shot MultiBox Detector

8 年前 Papers 1 分钟读完 (约 215 字)

Introduction

SSD是对YOLO的改进，其达到跟两阶段方法相当的精度，又保持较快的运行速度。

[论文笔记](FPN)Feature Pyramid Networks for Object Detection

8 年前 Papers 5 分钟读完 (约 730 字)

特征金字塔本是很自然的想法，但如何构建金字塔同时平衡检测任务的定位和分类双目标，又能保证显存的有效利用，是本文做的比较好的地方。如今，FPN也几乎成为特征提取网络的标配，更说明了这种组合方式的有效性。

[论文笔记]R-FCN: Object Detection via Region-based Fully Convolutinal Networks

8 年前 Papers 5 分钟读完 (约 762 字)

文章指出了检测任务之前的框架存在不自然的设计，即全卷积的特征提取部分+全连接的分类器，而表现最好的图像分类器都是全卷积的结构（ResNet等），这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说，检测模型采用了分类模型的特征提取器，丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。

[论文笔记](GoogLeNet)Going deeper with convolutions

8 年前 Papers 9 分钟读完 (约 1364 字)

本作是Inception系列网络的第一篇，提出了Inception单元结构，基于这一结构的GoogLeNet拿下了ILSVRC14分类任务的头名。文章也探讨了网络在不断加深的情况下如何更好地利用计算资源，这一理念也是Inception系列网络的核心。

[论文笔记]MegDet: A Large Mini-Batch Object Detector

8 年前 Papers 8 分钟读完 (约 1246 字)

本篇论文介绍了旷视取得2017 MS COCO Detection chanllenge第一名的模型。提出大批量训练检测网络，并用多卡BN保证网络的收敛性。

[论文笔记]Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

8 年前 Papers 4 分钟读完 (约 545 字)

Faster R-CNN是2-stage方法的主流方法，提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲，Faster R-CNN = RPN + Fast R-CNN，跟RCNN共享卷积计算的特性使得RPN引入的计算量很小，使得Faster R-CNN可以在单个GPU上以5fps的速度运行，而在精度方面达到SOTA。

[论文笔记]Fast R-CNN

8 年前 Papers 6 分钟读完 (约 896 字)

Fast R-CNN 是对R-CNN的改进，作者栏只有RBG一人。文章先指出了R-CNN存在的问题，再介绍了自己的改进思路。文章结构堪称典范，从现存问题，到解决方案、实验细节，再到结果分析、拓展讨论，条分缕析，值得借鉴。而且，RBG开源的代码也影响了后来大部分这一领域的工作。

[论文笔记](R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation

8 年前 Papers 5 分钟读完 (约 786 字)

R-CNN系列的开山之作，2-stage的想法至今仍是精确度优先方法的主流。而且，本文中的众多做法也成为检测任务pipeline的标准配置。

[论文笔记]Accurate, Large Minibatch SGD: Training ImageNet in One Hour

9 年前 Papers 4 分钟读完 (约 564 字)

高效训练深度学习模型的一些技巧。

[论文笔记]On the Effects and Weight Normalization in GAN

9 年前 Papers 7 分钟读完 (约 982 字)

本文探索了参数标准化(Weight Normalization)这一技术在GAN中的应用。BN在mini-batch的层级上计算均值和方差，容易引入噪声，并不适用于GAN这种生成模型，而WN对参数进行重写，引入噪声更少。

[论文笔记]An Analysis of Deep Neural Network Models for Practical Applications

9 年前 Papers 5 分钟读完 (约 689 字)

对现有流行的一些深度网络结构的比较报告。

[论文笔记](ResNet)Deep Residual Learning for Image Recognition

9 年前 Papers 5 分钟读完 (约 777 字)

网络在堆叠到越来越深之后，由于BP算法所依赖的链式法则的连乘形式，会出现梯度消失和梯度下降的问题。初始标准化和中间标准化参数在一定程度上缓解了这一问题，但仍然存在更深的网络比浅层网络具有更大的训练误差的问题。

#Computer Vision

目标检测常用评测集：Pascal VOC, MS COCO, Cityscapes

目标检测任务表述与模型基本结构

[论文笔记]YOLO9000: Better, Faster, Stronger

[论文笔记](OHEM)Training Region-based Object Detectors with Online Hard Example Mining

[论文笔记](MobileNet V2)Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation

[论文笔记](ResNeXt)Aggregated Residual Transformations for Deep Neural Networks

[论文笔记]MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

[论文笔记]Xception: Deep Learning with Depthwise Seperable Convolutions

[论文笔记]Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning

[论文笔记]Speed/accuracy trade-offs for modern convolutional object detectors

[论文笔记]Light-Head R-CNN: In Defense of Two-Stage Object Detector

[论文笔记]You Only Look Once: Unified, Real Time Object Detection

[论文笔记](Inception V3)Rethinking the Inception Architecture for Computer Vision

[论文笔记]SSD: Single Shot MultiBox Detector

Introduction

[论文笔记](FPN)Feature Pyramid Networks for Object Detection

[论文笔记]R-FCN: Object Detection via Region-based Fully Convolutinal Networks

[论文笔记](GoogLeNet)Going deeper with convolutions

[论文笔记]MegDet: A Large Mini-Batch Object Detector

[论文笔记]Faster R-CNN: Towards Real Time Object Detection with Region Proposal Networks

[论文笔记]Fast R-CNN

[论文笔记](R-CNN)Rich feature hierarchies for accurate object detection and semantic segmentation

[论文笔记]Accurate, Large Minibatch SGD: Training ImageNet in One Hour

[论文笔记]On the Effects and Weight Normalization in GAN

[论文笔记]An Analysis of Deep Neural Network Models for Practical Applications

[论文笔记](ResNet)Deep Residual Learning for Image Recognition

Your browser is out-of-date!