文档章节

分析 Dropout

AllenOR灵感
 AllenOR灵感
发布于 2017/09/10 01:21
字数 2146
阅读 3
收藏 0

这篇教程是翻译Paolo Galeone写的Dropout分析教程,作者已经授权翻译,这是原文

过拟合一直是深度神经网络(DNN)所要面临的一个问题:模型只是在训练数据上学习分类,使其适应训练样本,而不是去学习一个能够对通用数据进行分类的完全决策边界。这些年,提出了很多的方案去解决过拟合问题。其中一种方法就是Dropout,由于这种方法非常简单,但是在实际使用中又具有很好的效果,所以被广泛使用。

Dropout


Dropout 背后的思想其实就是把DNN当做一个集成模型来训练,之后取所有值的平均值,而不只是训练单个DNN。

DNN网络将Dropout率设置为 p,也就是说,一个神经元被保留的概率是 1-p。当一个神经元被丢弃时,无论输入或者相关的参数是什么,它的输出值就会被设置为0。

丢弃的神经元在训练阶段,对BP算法的前向和后向阶段都没有贡献。因为这个原因,所以每一次训练,它都像是在训练一个新的网络。

你可以查看这篇论文,进行更详细的了解。

简而言之:Dropout 可以在实际工作中发挥很好的效果,因为它能防止神经网络在训练过程中产生共适应。

现在,我们对Dropout有了一个直观的概念,接下来让我们深入的分析它。

Dropout是如何工作的?

正如前面所说的,Dropout 以概率 p 来丢弃神经元, 并且让别的神经元以概率 q = 1 - p,进行保留。

每一个神经元都有相同的概率被丢弃和保留。 也就是说:

给定

  • h(x) = xW + b 是一个线性转换方程,其中输入 x 是一个 di 维度的数据,输出数据是一个 dh 维度的。
  • a(h) 是一个激活函数。

我们只将 Dropout 作用在模型的训练阶段,即我们可以把模型的激活函数修改为:


其中,D = (X1, ..., Xdn) 是一个 dh 维度的向量,Xi 是一个伯努利变量。

注:Probability density function 是概率密度函数,针对连续型随机变量而言,一般写法是一个函数,如 f(x)=e^(-x),积分得到∫f(x)dx=1。
Probability mass function 是概率质量函数,是针对离散型随机变量而言。一般写法是写成对应每一个特定取值的概率,如P{x=xi}=1/15。

伯努利随机变量具有以下概率质量分布:


其中,k 是可能的输出结果。

很明显,这个随机变量完美的模拟了单个神经元上面的 Dropout 过程。实际上,神经元以概率 p = P(k=1) 丢弃,以 p = P(k=0) 保留。

比如,在第 i 个神经元上,Dropout 的应用如下所示:


其中,P(Xi = 0) = p

因为,在训练阶段,一个神经元被保留的概率是 q 。但是在测试阶段,我们必须去模拟训练阶段的集成网络模型。

为此,作者建议在测试阶段将神经元的激活值乘以因子 q 再输出。以便在训练阶段集成模型,在测试阶段只要输出单个模型的值即可。从而得到下式:


Inverted Dropout

我们稍微将 Dropout 方法改进一下,使得我们只需要在训练阶段缩放激活函数的输出值,而不用在测试阶段改变什么。这个改进的 Dropout 方法就被称之为 Inverted Dropout 。

比例因子将修改为是保留概率的倒数,即:


因此,我们最终可以把模型修改为:


在各种深度学习框架的实现中,我们都是用 Inverted Dropout 来代替 Dropout,因为这种方式有助于模型的完整性,我们只需要修改一个参数(保留/丢弃概率),而整个模型都不用修改。

对一层神经元进行 Dropout 处理

假设第 h 层有 n 个神经元,那么在一次循环中,神经网络可以被看做是 n 次的伯努利实验的集成,每个神经元被保留的概率是 p

因此,第 h 层一共被保留的神经元个数如下:


由于每个神经元都是用伯努利随机变量进行建模的,并且所有这些随机变量是独立同分布的,所以所有被丢弃的神经元的总数也是一个随机量,称为二项式:


其中,在 n 个试验中,获得保留 k 个的概率质量分布为:


这个式子也很好解释,如下:


我们现在可以利用这个分布来分析丢弃指定神经元的概率。

当我们使用 Dropout 时,我们需要先定义一个固定的 Dropout 概率 p,即我们期望从网络中丢弃多少比例的神经元。

举个例子,如果我们的神经元数量是 n = 1024p = 0.5,那么我们希望有 512 个神经元被丢弃。让我们来验证一下:


因此,丢弃的神经元个数是 np = 512 的概率是 0.025

Python 代码可以帮助我们可视化结果,比如我们把 n 值固定,然后改变 p 的值,那么可以得到下图:


正如我们在上图中看到的,不管 p 值如何改变,平均丢弃的神经元个数都是 np 。也就是:


而且,我们可以注意到,值的分布是关于 p = 0.5 对称的。而且,p 随着离 0.5 越远,np 的值越来越大。

在训练阶段,我们需要把缩放因子 p 添加到网络中,因为我们期望在训练阶段只保留百分之 1-p 的神经元。相反,在测试阶段,我们需要开启所有的神经元。

Dropout 和其他正则化

Dropout 方法通常和 L2 范数或者其他参数约束技术(比如Max Norm)一起使用。规范化有助于使模型参数的值不是很大,而且这种方法参数值的变化过程不会很大。

简而言之,例如,L2 归一化是损失函数的一个附加项,其中 λ∈[0,1] 是被称为正则化的超参数,F(W;x) 是模型,E 是真实值y和预测值y^的误差函数。


对于这个附加项,我们很容易理解。当通过梯度下降进行反向传播时,这可以减少更新量。如果 η 是学习率,则参数 w∈W 的更新量为:


相反,单独使用 Dropout 方法不能防止参数值在训练阶段变得过大。而且,Inverted Dropout 方法还会导致更新步骤变得更大,正如下面所描述的。

Inverted Dropout 和其他正则化

由于 Dropout 方法不会阻止参数过大,而且参数之间也不会互相牵制。所以我们要使用 L2 正则化来改变这个情况,或者其他的正则化方法。

加入明确的缩放因子,前面的方程就变为:


观察上式,很容易发现,当使用 Inverted Dropout 方法时,学习率被缩放到 q 的因子,由于 q 的取值范围是 [0,1],那么 ηq 之间的比率可以在以下之间变化:


因此,从现在开始,我们称 q 是一个 boosting 因子,因为它提高了学习率。此外,我们称 r(q) 为有效学习率。

因此,有效学习率相对于所选择的学习率有更好的表示性。由于这个原因,限制参数值的规范化方法可以帮助简化学习率的选择过程。

总结

  1. Dropout 方法存在两种形式:直接的和 Inverted。
  2. 在单个神经元上面,Dropout 方法可以使用伯努利随机变量。
  3. 在一层神经元上面,Dropout 方法可以使用伯努利随机变量。
  4. 我们精确的丢弃 np 个神经元是不太可能的,但是在一个拥有 n 个神经元的网络层上面,平均丢弃的神经元就是 np 个。
  5. Inverted Dropout 方法可以产生有效学习率。
  6. Inverted Dropout 方法应该和别的规范化参数的技术一起使用,从而帮助简化学习率的选择过程。
  7. Dropout 方法有助于防止深度神经网路的过拟合。

本文转载自:http://www.jianshu.com/p/ba9ca3b07922

共有 人打赏支持
AllenOR灵感
粉丝 11
博文 2635
码字总数 83001
作品 0
程序员
私信 提问
分析 Dropout

这篇教程是翻译Paolo Galeone写的Dropout分析教程,作者已经授权翻译,这是原文。 过拟合一直是深度神经网络(DNN)所要面临的一个问题:模型只是在训练数据上学习分类,使其适应训练样本,而...

chen_h
2017/01/29
0
0
深度学习笔记5:正则化与dropout

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定! 对商业智能BI、大数据分析挖掘、机器学习,python,R等数据领域感兴...

天善智能
07/18
0
0
学界 | 如何通过方差偏移理解批归一化与Dropout之间的冲突

自批量归一化提出以来,Dropout 似乎就失去了用武之处,流行的深度架构也心照不宣地在批归一化上不采用 Dropout。而近日南京理工大学和清华大学的研究表明 Dropout 在网络测试的时候神经元会...

机器之心
01/23
0
0
【深度学习】深入解析dropout

摘要: 本文详细介绍了深度学习中dropout技巧的思想,分析了Dropout以及Inverted Dropout两个版本,另外将单个神经元与伯努利随机变量相联系让人耳目一新。 过拟合是深度神经网(DNN)中的一...

qq280929090
03/22
0
0
深度学习(三):Keras初探:多层感知机

之前使用Keras构建了简单的前馈神经网络,并通过SGD方式进行训练,很好地已完成红酒分类任务。现在我们通过复杂一些的任务来看看BP神经网络的性能。我们选择mnist手写数字库来进行测试,Ker...

monte3card
2017/06/12
0
0

没有更多内容

加载失败,请刷新页面

加载更多

[springBoot系列]--springBoot注解大全

一、注解(annotations)列表 @SpringBootApplication:包含了@ComponentScan、@Configuration和@EnableAutoConfiguration注解。其中@ComponentScan让spring Boot扫描到Configuration类并把它加......

Jack088
11分钟前
0
0
tomcat编译超过64k大小的jsp文件报错原因

  今天遇到一个问题,首先是在tomcat中间件上跑的web项目,一个jsp文件,因为代码行数实在是太多了,更新了几个版本之后编译报错了,页面打开都是报500的错误,500的报错,知道http协议返回...

SEOwhywhy
32分钟前
4
0
flutter http 请求客户端

1、pubspec文件管理Flutter应用程序的assets(资源,如图片、package等)。 在pubspec.yaml中,通过网址“https://pub.dartlang.org/packages/http#-installing-tab-”确认版本号后,将http(0...

渣渣曦
33分钟前
1
0
Django基本命令及moduls举例

一、Django基本命令 1.创建项目 django-admin.py startproject mysite 创建后的项目结构:- mysite - mysite #对整个程序进行配置 - init #导入包专用- settings ...

枫叶云
47分钟前
7
0
zabbix安装

rpm -ivh http://repo.webtatic.com/yum/el6/latest.rpm 安装jdk rpm -ivh (自行在网上下载rpm包) 安装php并修改相应参数 yum -y install php56w php56w-gd php56w-mysqlnd php56w-bcmath......

muoushi
49分钟前
4
0

没有更多内容

加载失败,请刷新页面

加载更多

返回顶部
顶部