这篇文章是三位大牛15年发表在Nature上有关深度学习的综述,尽管这两年深度学习又有更多的模型和成果出现,文章显得有些过时,但来自三位领军人物对深度学习的深度阐述还是值得反复回味。
Abstract
摘要的第一句话可以说给深度学习下了定义。有一些观点认为深度学习就是堆叠了很多层的神经网络,因计算力的提升而迎来第二春。但请看三位是怎么说的:
Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction.
也就是说,深度学习是允许由 多个处理层构成的计算模型 用多个层次的 抽象 来习得 数据表示 的技术。我的解读如下:
- 深度学习不限于神经网络模型,其关键之处在于多层的表示
- 深度学习属于表示学习,目的是习得数据的某种表示,而这种表示由多个层次的抽象完成
在第一段的导言中,文章总结了深度学习技术取得突破性成果的各个领域,也再次指出了深度学习与传统学习算法的不同之处:
- 传统学习模型需要特征工程和领域知识来从数据构建较好的特征
- 深度学习中,多层的特征由通用的学习过程得到,而不需要人类工程师的参与
Supervised learning
这一段概述了监督学习的一般框架、优化策略,并指出浅层学习需要Feature Extractor来提取对最适合目标问题的特征。
Backpropagation to train multilayer architectures
这一段指出BP算法的关键在于目标函数关于某一子模块输入的导数可以反向通过目标函数关于该子模块输出的导数得出,而这一过程是可迭代的。BP算法曾因容易陷于局部最优解而被冷落,但对于大型网络,在实践中,理论和经验都表明尽管落于局部最优解,但这个解的效果却和全局最优解相差无几,而且几乎所有的局部最优解都可以取得类似的效果。
Convolutional neural networks
巻积网络背后有四个关键想法:
- local connections
- shared weights
- pooling
- the use of many layers
巻积网络常由巻积层、池化层和激活层构成,巻积层用于提取局部特征,池化层用于整合相似的特征,激活层用于加入非线性。这样的结构有两点理由:
- 张量性数据的局部数值常常高度相关,局部特征容易发现
- 局部特征跟位置无关(平移不变性)
文章也提到了这种巻积结构的仿生学证据。
Image understanding with deep convolutional networks
这一段总结了巻积网路在图像方面取得的成就。
Distributed representations and language processing
分布式表示在两点上可以取得指数级增益:
- 习得特征的不同组合可以泛化出训练数据中不存在的类型
- 特征组合的个数的增加关于层数是指数级的
文章还比较了分布式表示相比传统的词频统计在表述人类语言方面的优势。
Recurrent neural networks
这一段概述了循环神经网络的动态特性和LSTM等结构上的改进。
The future of deep learning
作者认为在长期看来,无监督学习会更为重要,人工智能领域的重大飞跃将由组合了表示学习和复杂推理的系统取得。
论文链接:Deep Learning