Dropout和BN为什么不能共同使用？

2022-10-12 08:46:13

一、问题：

Dropout和BN都有防止过拟合的作用，单独使用，都带来一定的性能改进，但最近的工作都不一起使用，这是为何？

二、原因：

1.当网络的状态从训练转移到测试时，Dropout转移了特定神经单元的方差。但是，在测试阶段，BN保持了它的统计方差，这是在整个学习过程中积累的。Dropout和BN中方差的不一致性(命名为“方差偏移”)导致推断中不稳定的数值行为，最终导致错误的预测。

2.对于下图，展示了BN和Dropout的训练和测试区别，Dropout在训练直接以p的概率进行失活，而在测试，对每个神经元进行尺度放缩(乘p)。另一种等价的表现形式，在训练阶段乘1/p，而测试阶段不需要做任何改动，所以，训练：X=a*(1/p)*X，测试：X=X，存在方差偏移。

3.作者的发现：

(1)在任何情况下，更高的dropout概率会打破神经反应的稳定性，因此我们dropout概率< 0.5。综上所述，转移风险同时取决于Dropout比率和特征维数。特征维度就是隐藏层神经元个数，Dropout以一定概率对隐藏元个数进行失活，这个会受到影响。而BN也在每一层隐藏层个数进行BN计算(或者说沿着C维度进行BN计算)。详细的数学证明看原文。

(2)通过训练数据调整移动均值和方差有利于改进，但与没有Dropout训练的baseline相比，它不能弥补性能上的全部损失。此外，在测试期间应用Dropout来避免“方差漂移”的网络预测的集合仍然低于这些baseline。

(3)我们理解为什么最近的一些模型(如Inception-v4 [30]， SENet[14])在整个网络的最后一个BN层之后采用了一个Dropout层，因为根据我们的理论，它不会导致方差的本质偏移。

(4)我们还发现，Dropout的形式可以修改，以减少它们的方差偏移，从而提高它们的性能，即使它们处于瓶颈构建块中。

4.对我们实验的启发：

(1)丢失率别太大，通道维度多一点，网络宽一点

(2)Dropout放到BN后面，对偏移有缓解。

(3)改进Dropout的形式，减少方差偏移(听着就麻烦)。

参考文章：Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

作者：低吟浅笑
原文链接：https://blog.csdn.net/qq_37424778/article/details/126645585
更新时间：2022-10-12 08:46:13

相关文章

C#拼装JSON数组简易方法
　　下面是我们想要拼接出来的JSON字符串，返回给前台1 {"success":"true","msg":""
2022-09-27

40个Java多线程问题总结
前言Java多线程分类中写了21篇多线程的文章，21篇文章的内容很多，个人认为，学习，内容越多、越杂的知识，越
2022-09-27

vue实现简易购物车案例
对于购物车这个需求，很多无论pc端还是移动端的电商项目中都会碰到，所以这篇文章我做了一个书籍购物车的小案例。主
2022-09-27

GPU利用率（gpu-util）低下的可能原因
本文章分享一下自身遇到的一个问题，参考很多其他文章对GPU利用率低的解答发现自己都解决了，可是利用率还是一会儿
2022-09-27

随机文章

python中如何判断两个字符串是否相等_python怎样判断两个字符串是否相同
原标题：python怎样判断两个字符串是否相同 python中，判断两个字符串是否相等或一样，可以使用==或者
2022-10-06

高德地图测开笔试题分享
高德地图笔试题分享题1）:实现单词翻转。例如：I am a student ---->student a
2022-10-06

微信小程序+echart
微信小程序加载echart地图
2022-10-06

mysql8.0服务突然启动不了，已排错解决
背景：使用mysql连接可视化工具的时候一直报连接不上localhost在终端控制台黑窗口进行连接，发现依然连
2022-10-06

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录