复盘:BN和Dropout共同使用时会出现的问题

2022-10-28 10:26:55

复盘:BN和Dropout共同使用时会出现的问题

提示:系列被面试官问的问题,我自己当时不会,所以下来自己复盘一下,认真学习和总结,以应对未来更多的可能性

关于互联网大厂的笔试面试,都是需要细心准备的
(1)自己的科研经历,科研内容,学习的相关领域知识,要熟悉熟透了
(2)自己的实习经历,做了什么内容,学习的领域知识,要熟悉熟透了
(3)除了科研,实习之外,平时自己关注的前沿知识,也不要落下,仔细了解,面试官很在乎你是否喜欢追进新科技,跟进创新概念和技术
(4)准备数据结构与算法,有笔试的大厂,第一关就是手撕代码做算法题
面试中,实际上,你准备数据结构与算法时以备不时之需,有足够的信心面对面试官可能问的算法题,很多情况下你的科研经历和实习经历足够跟面试官聊了,就不需要考你算法了。但很多大厂就会面试问你算法题,因此不论为了笔试面试,数据结构与算法必须熟悉熟透了
秋招提前批好多大厂不考笔试,直接面试,能否免笔试去面试,那就看你简历实力有多强了。


请问;BN和Dropout能共同使用吗?

不能!!!!

BN和Dropout单独使用都能减少过拟合并加速训练速度,

但如果一起使用的话并不会产生1+1>2的效果,
相反可能会得到比单独使用更差的效果。

相关的研究参考论文:
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

本论文作者发现理解 Dropout 与 BN 之间冲突的关键是
网络状态切换过程中存在神经方差的(neural variance)不一致行为。

试想若有图一中的神经响应 X,当网络从训练转为测试时,
Dropout 可以通过其随机失活保留率(即 p)来缩放响应,
并在学习中改变神经元的方差,

而 BN 仍然维持 X 的统计滑动方差。

这种方差不匹配可能导致数值不稳定(见下图中的红色曲线)。
在这里插入图片描述

而随着网络越来越深,最终预测的数值偏差可能会累计,从而降低系统的性能。

简单起见,作者们将这一现象命名为**「方差偏移」**。

事实上,如果没有 Dropout,那么实际前馈中的神经元方差将与 BN 所累计的滑动方差非常接近(见下图中的蓝色曲线),这也保证了其较高的测试准确率。

作者采用了两种策略来探索如何打破这种局限。
一个是在所有 BN 层后使用 Dropout,
另一个就是修改 Dropout 的公式让它对方差并不那么敏感,就是高斯Dropout。

第一个方案比较简单,把Dropout放在所有BN层的后面就可以了,这样就不会产生方差偏移的问题,但实则有逃避问题的感觉。

第二个方案来自Dropout原文里提到的一种高斯Dropout,是对Dropout形式的一种拓展。作者进一步拓展了高斯Dropout,提出了一个均匀分布Dropout,这样做带来了一个好处就是这个形式的Dropout(又称为“Uout”)对方差的偏移的敏感度降低了,总得来说就是整体方差偏地没有那么厉害了。

总之,就是不能放一起,否则炸了


总结

提示:重要经验:

1)BN和dropOut可以单独使用,但是不能同时使用
2)可以简单地将dropout放在BN之后用
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

  • 作者:冰露可乐
  • 原文链接:https://blog.csdn.net/weixin_46838716/article/details/125816909
    更新时间:2022-10-28 10:26:55