这篇文章是三位大牛15年发表在Nature上有关深度学习的综述,尽管这两年深度学习又有更多的模型和成果出现,文章显得有些过时,但来自三位领军人物对深度学习的深度阐述还是值得反复回味。

阅读更多

Dropout技术是Srivastava等人在2012年提出的技术,现在已然成为各种深度模型的标配。其中心思想是随机地冻结一部分模型参数,用于提高模型的泛化性能。

阅读更多

这篇文章是打开LSTM黑箱的尝试,提供了序列维度上共享权值的合理性证据,对Gates状态的可视化也非常值得关注,最后对误差的分解可能对新的网络结构有所启发(比如,如何将单词级别和字母级别的LSTM嵌套起来,解决首字母预测的问题?)。

阅读更多

网络在堆叠到越来越深之后,由于BP算法所依赖的链式法则的连乘形式,会出现梯度消失和梯度下降的问题。初始标准化和中间标准化参数在一定程度上缓解了这一问题,但仍然存在更深的网络比浅层网络具有更大的训练误差的问题。

阅读更多

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×