#Computer Vision

如何从图像中解析出可供计算机理解的信息,是机器视觉的中心问题。深度学习模型由于其强大的表示能力,加之数据量的积累和计算力的进步,成为机器视觉的热点研究方向。

阅读更多

本文是Bootstrapping(自助采样)在深度网络中的应用。两阶段网络由于其多步的特性,在RCNN子网络的计算前会有对RoI的整理过程,早期工作中,Fast R-CNN利用随机上采样和下采样的方法来维持正负样本比例,而本文提出的方法则使得网络具有挑选“好的”正负样本的能力。

阅读更多

本文是MobileNets的第二版。第一版中,MobileNets全面应用了Depth-wise Seperable Convolution并提出两个超参来控制网络容量,在保持移动端可接受的模型复杂性的基础上达到了相当的精度。而第二版中,MobileNets应用了新的单元:Inverted residual with linear bottleneck,主要的改动是添加了线性Bottleneck和将skip-connection转移到低维bottleneck层。

阅读更多

本文提出了深度网络的新维度,除了深度、宽度(Channel数)外,作者将在某一层并行transform的路径数提取为第三维度,称为”cardinality”。跟Inception单元不同的是,这些并行路径均共享同一拓扑结构,而非精心设计的卷积核并联。除了并行相同的路径外,也添加了层与层间的shortcut connection。但由于其多路径的设计特征,我将其归为Inception系网络。

阅读更多

文章指出两阶段检测器通常在生成Proposal后进行分类的“头”(head)部分进行密集的计算,如ResNet为基础网络的Faster-RCNN将整个stage5(或两个FC)放在RCNN部分, RFCN要生成一个具有随类别数线性增长的channel数的Score map,这些密集计算正是两阶段方法在精度上领先而在推断速度上难以满足实时要求的原因。

阅读更多

特征金字塔本是很自然的想法,但如何构建金字塔同时平衡检测任务的定位和分类双目标,又能保证显存的有效利用,是本文做的比较好的地方。如今,FPN也几乎成为特征提取网络的标配,更说明了这种组合方式的有效性。

阅读更多

文章指出了检测任务之前的框架存在不自然的设计,即全卷积的特征提取部分+全连接的分类器,而表现最好的图像分类器都是全卷积的结构(ResNet等),这一点是由分类任务的平移不变性和检测任务的平移敏感性之间的矛盾导致的。换句话说,检测模型采用了分类模型的特征提取器,丢失了位置信息。这篇文章提出采用“位置敏感分数图”的方法解决这一问题。

阅读更多

本作是Inception系列网络的第一篇,提出了Inception单元结构,基于这一结构的GoogLeNet拿下了ILSVRC14分类任务的头名。文章也探讨了网络在不断加深的情况下如何更好地利用计算资源,这一理念也是Inception系列网络的核心。

阅读更多

Faster R-CNN是2-stage方法的主流方法,提出的RPN网络取代Selective Search算法使得检测任务可以由神经网络端到端地完成。粗略的讲,Faster R-CNN = RPN + Fast R-CNN,跟RCNN共享卷积计算的特性使得RPN引入的计算量很小,使得Faster R-CNN可以在单个GPU上以5fps的速度运行,而在精度方面达到SOTA。

阅读更多

Fast R-CNN 是对R-CNN的改进,作者栏只有RBG一人。文章先指出了R-CNN存在的问题,再介绍了自己的改进思路。文章结构堪称典范,从现存问题,到解决方案、实验细节,再到结果分析、拓展讨论,条分缕析,值得借鉴。而且,RBG开源的代码也影响了后来大部分这一领域的工作。

阅读更多

网络在堆叠到越来越深之后,由于BP算法所依赖的链式法则的连乘形式,会出现梯度消失和梯度下降的问题。初始标准化和中间标准化参数在一定程度上缓解了这一问题,但仍然存在更深的网络比浅层网络具有更大的训练误差的问题。

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×