文档章节

分析 Dropout

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:21
字数 2146
阅读 3
收藏 0

这篇教程是翻译Paolo Galeone写的Dropout分析教程,作者已经授权翻译,这是原文

过拟合一直是深度神经网络(DNN)所要面临的一个问题:模型只是在训练数据上学习分类,使其适应训练样本,而不是去学习一个能够对通用数据进行分类的完全决策边界。这些年,提出了很多的方案去解决过拟合问题。其中一种方法就是Dropout,由于这种方法非常简单,但是在实际使用中又具有很好的效果,所以被广泛使用。

Dropout


Dropout 背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN。

DNN网络将Dropout率设置为 p,也就是说,一个神经元被保留的概率是 1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0。

丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络。

你可以查看这篇论文,进行更详细的了解。

简而言之:Dropout 可以在实际工作中发挥很好的效果,因为它能防止神经网络在训练过程中产生共适应。

现在,我们对Dropout有了一个直观的概念,接下来让我们深入的分析它。

Dropout是如何工作的?

正如前面所说的,Dropout 以概率 p 来丢弃神经元, 并且让别的神经元以概率 q = 1 - p,进行保留。

每一个神经元都有相同的概率被丢弃和保留。 也就是说:

给定

  • h(x) = xW + b 是一个线性转换方程,其中输入 x 是一个 di 维度的数据,输出数据是一个 dh 维度的。
  • a(h) 是一个激活函数。

我们只将 Dropout 作用在模型的训练阶段,即我们可以把模型的激活函数修改为:


其中,D = (X1, ..., Xdn) 是一个 dh 维度的向量,Xi 是一个伯努利变量。

注:Probability density function 是概率密度函数,针对连续型随机变量而言,一般写法是一个函数,如 f(x)=e^(-x),积分得到∫f(x)dx=1。
Probability mass function 是概率质量函数,是针对离散型随机变量而言。一般写法是写成对应每一个特定取值的概率,如P{x=xi}=1/15。

伯努利随机变量具有以下概率质量分布:


其中,k 是可能的输出结果。

很明显,这个随机变量完美的模拟了单个神经元上面的 Dropout 过程。实际上,神经元以概率 p = P(k=1) 丢弃,以 p = P(k=0) 保留。

比如,在第 i 个神经元上,Dropout 的应用如下所示:


其中,P(Xi = 0) = p

因为,在训练阶段,一个神经元被保留的概率是 q 。但是在测试阶段,我们必须去模拟训练阶段的集成网络模型。

为此,作者建议在测试阶段将神经元的激活值乘以因子 q 再输出。以便在训练阶段集成模型,在测试阶段只要输出单个模型的值即可。从而得到下式:


Inverted Dropout

我们稍微将 Dropout 方法改进一下,使得我们只需要在训练阶段缩放激活函数的输出值,而不用在测试阶段改变什么。这个改进的 Dropout 方法就被称之为 Inverted Dropout 。

比例因子将修改为是保留概率的倒数,即:


因此,我们最终可以把模型修改为:


在各种深度学习框架的实现中,我们都是用 Inverted Dropout 来代替 Dropout,因为这种方式有助于模型的完整性,我们只需要修改一个参数(保留/丢弃概率),而整个模型都不用修改。

对一层神经元进行 Dropout 处理

假设第 h 层有 n 个神经元,那么在一次循环中,神经网络可以被看做是 n 次的伯努利实验的集成,每个神经元被保留的概率是 p

因此,第 h 层一共被保留的神经元个数如下:


由于每个神经元都是用伯努利随机变量进行建模的,并且所有这些随机变量是独立同分布的,所以所有被丢弃的神经元的总数也是一个随机量,称为二项式:


其中,在 n 个试验中,获得保留 k 个的概率质量分布为:


这个式子也很好解释,如下:


我们现在可以利用这个分布来分析丢弃指定神经元的概率。

当我们使用 Dropout 时,我们需要先定义一个固定的 Dropout 概率 p,即我们期望从网络中丢弃多少比例的神经元。

举个例子,如果我们的神经元数量是 n = 1024p = 0.5,那么我们希望有 512 个神经元被丢弃。让我们来验证一下:


因此,丢弃的神经元个数是 np = 512 的概率是 0.025

Python 代码可以帮助我们可视化结果,比如我们把 n 值固定,然后改变 p 的值,那么可以得到下图:


正如我们在上图中看到的,不管 p 值如何改变,平均丢弃的神经元个数都是 np 。也就是:


而且,我们可以注意到,值的分布是关于 p = 0.5 对称的。而且,p 随着离 0.5 越远,np 的值越来越大。

在训练阶段,我们需要把缩放因子 p 添加到网络中,因为我们期望在训练阶段只保留百分之 1-p 的神经元。相反,在测试阶段,我们需要开启所有的神经元。

Dropout 和其他正则化

Dropout 方法通常和 L2 范数或者其他参数约束技术(比如Max Norm)一起使用。规范化有助于使模型参数的值不是很大,而且这种方法参数值的变化过程不会很大。

简而言之,例如,L2 归一化是损失函数的一个附加项,其中 λ∈[0,1] 是被称为正则化的超参数,F(W;x) 是模型,E 是真实值y和预测值y^的误差函数。


对于这个附加项,我们很容易理解。当通过梯度下降进行反向传播时,这可以减少更新量。如果 η 是学习率,则参数 w∈W 的更新量为:


相反,单独使用 Dropout 方法不能防止参数值在训练阶段变得过大。而且,Inverted Dropout 方法还会导致更新步骤变得更大,正如下面所描述的。

Inverted Dropout 和其他正则化

由于 Dropout 方法不会阻止参数过大,而且参数之间也不会互相牵制。所以我们要使用 L2 正则化来改变这个情况,或者其他的正则化方法。

加入明确的缩放因子,前面的方程就变为:


观察上式,很容易发现,当使用 Inverted Dropout 方法时,学习率被缩放到 q 的因子,由于 q 的取值范围是 [0,1],那么 ηq 之间的比率可以在以下之间变化:


因此,从现在开始,我们称 q 是一个 boosting 因子,因为它提高了学习率。此外,我们称 r(q) 为有效学习率。

因此,有效学习率相对于所选择的学习率有更好的表示性。由于这个原因,限制参数值的规范化方法可以帮助简化学习率的选择过程。

总结

  1. Dropout 方法存在两种形式:直接的和 Inverted。
  2. 在单个神经元上面,Dropout 方法可以使用伯努利随机变量。
  3. 在一层神经元上面,Dropout 方法可以使用伯努利随机变量。
  4. 我们精确的丢弃 np 个神经元是不太可能的,但是在一个拥有 n 个神经元的网络层上面,平均丢弃的神经元就是 np 个。
  5. Inverted Dropout 方法可以产生有效学习率。
  6. Inverted Dropout 方法应该和别的规范化参数的技术一起使用,从而帮助简化学习率的选择过程。
  7. Dropout 方法有助于防止深度神经网路的过拟合。

本文转载自:http://www.jianshu.com/p/ba9ca3b07922

共有 人打赏支持
AllenOR灵感
粉丝 10
博文 2634
码字总数 82983
作品 0
程序员
分析 Dropout

这篇教程是翻译Paolo Galeone写的Dropout分析教程,作者已经授权翻译,这是原文。 过拟合一直是深度神经网络(DNN)所要面临的一个问题:模型只是在训练数据上学习分类,使其适应训练样本,而...

chen_h
2017/01/29
0
0
深度学习笔记5:正则化与dropout

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
07/18
0
0
学界 | 如何通过方差偏移理解批归一化与Dropout之间的冲突

自批量归一化提出以来,Dropout 似乎就失去了用武之处,流行的深度架构也心照不宣地在批归一化上不采用 Dropout。而近日南京理工大学和清华大学的研究表明 Dropout 在网络测试的时候神经元会...

机器之心
01/23
0
0
【深度学习】深入解析dropout

摘要: 本文详细介绍了深度学习中dropout技巧的思想,分析了Dropout以及Inverted Dropout两个版本,另外将单个神经元与伯努利随机变量相联系让人耳目一新。 过拟合是深度神经网(DNN)中的一...

qq280929090
03/22
0
0
深度学习(三):Keras初探:多层感知机

之前使用Keras构建了简单的前馈神经网络,并通过SGD方式进行训练,很好地已完成红酒分类任务。现在我们通过复杂一些的任务来看看BP神经网络的性能。我们选择mnist手写数字库来进行测试,Ker...

monte3card
2017/06/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

00.编译OpenJDK-8u40的整个过程

前言 历经2天的折腾总算把OpenJDK给编译成功了,要说为啥搞这个,还得从面试说起,最近出去面试经常被问到JVM的相关东西,总感觉自己以前学的太浅薄,所以回来就打算深入学习,目标把《深入理...

凌晨一点
今天
2
0
python: 一些关于元组的碎碎念

初始化元组的时候,尤其是元组里面只有一个元素的时候,会出现一些很蛋疼的情况: def checkContentAndType(obj): print(obj) print(type(obj))if __name__=="__main__": tu...

Oh_really
昨天
6
2
jvm crash分析工具

介绍一款非常好用的jvm crash分析工具,当jvm挂掉时,会产生hs_err_pid.log。里面记录了jvm当时的运行状态以及错误信息,但是内容量比较庞大,不好分析。所以我们要借助工具来帮我们。 Cras...

xpbob
昨天
116
0
Qt编写自定义控件属性设计器

以前做.NET开发中,.NET直接就集成了属性设计器,VS不愧是宇宙第一IDE,你能够想到的都给你封装好了,用起来不要太爽!因为项目需要自从全面转Qt开发已经6年有余,在工业控制领域,有一些应用...

飞扬青云
昨天
4
0
我为什么用GO语言来做区块链?

Go语言现在常常被用来做去中心化系统(decentralised system)。其他类型的公司也都把Go用在产品的核心模块中,并且它在网站开发中也占据了一席之地。 我们在决定做Karachain的时候,考量(b...

HiBlock
昨天
2
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部