2022-10-28 10:26:55

复盘：BN和Dropout共同使用时会出现的问题

提示：系列被面试官问的问题，我自己当时不会，所以下来自己复盘一下，认真学习和总结，以应对未来更多的可能性

关于互联网大厂的笔试面试，都是需要细心准备的
（1）自己的科研经历，科研内容，学习的相关领域知识，要熟悉熟透了
（2）自己的实习经历，做了什么内容，学习的领域知识，要熟悉熟透了
（3）除了科研，实习之外，平时自己关注的前沿知识，也不要落下，仔细了解，面试官很在乎你是否喜欢追进新科技，跟进创新概念和技术
（4）准备数据结构与算法，有笔试的大厂，第一关就是手撕代码做算法题
面试中，实际上，你准备数据结构与算法时以备不时之需，有足够的信心面对面试官可能问的算法题，很多情况下你的科研经历和实习经历足够跟面试官聊了，就不需要考你算法了。但很多大厂就会面试问你算法题，因此不论为了笔试面试，数据结构与算法必须熟悉熟透了
秋招提前批好多大厂不考笔试，直接面试，能否免笔试去面试，那就看你简历实力有多强了。

文章目录
复盘：BN和Dropout共同使用时会出现的问题
@[TOC](文章目录)
请问;BN和Dropout能共同使用吗？
总结

请问;BN和Dropout能共同使用吗？

不能！！！！

BN和Dropout单独使用都能减少过拟合并加速训练速度，

但如果一起使用的话并不会产生1+1>2的效果，
相反可能会得到比单独使用更差的效果。

相关的研究参考论文：
Understanding the Disharmony between Dropout and Batch Normalization by Variance Shift

本论文作者发现理解 Dropout 与 BN 之间冲突的关键是
网络状态切换过程中存在神经方差的（neural variance）不一致行为。

试想若有图一中的神经响应 X，当网络从训练转为测试时，
Dropout 可以通过其随机失活保留率（即 p）来缩放响应，
并在学习中改变神经元的方差，

而 BN 仍然维持 X 的统计滑动方差。

这种方差不匹配可能导致数值不稳定（见下图中的红色曲线）。
在这里插入图片描述

而随着网络越来越深，最终预测的数值偏差可能会累计，从而降低系统的性能。

简单起见，作者们将这一现象命名为**「方差偏移」**。

事实上，如果没有 Dropout，那么实际前馈中的神经元方差将与 BN 所累计的滑动方差非常接近（见下图中的蓝色曲线），这也保证了其较高的测试准确率。

作者采用了两种策略来探索如何打破这种局限。
一个是在所有 BN 层后使用 Dropout，
另一个就是修改 Dropout 的公式让它对方差并不那么敏感，就是高斯Dropout。

第一个方案比较简单，把Dropout放在所有BN层的后面就可以了，这样就不会产生方差偏移的问题，但实则有逃避问题的感觉。

第二个方案来自Dropout原文里提到的一种高斯Dropout，是对Dropout形式的一种拓展。作者进一步拓展了高斯Dropout，提出了一个均匀分布Dropout，这样做带来了一个好处就是这个形式的Dropout（又称为“Uout”）对方差的偏移的敏感度降低了，总得来说就是整体方差偏地没有那么厉害了。

总之，就是不能放一起，否则炸了

总结

提示：重要经验：

1）BN和dropOut可以单独使用，但是不能同时使用
2）可以简单地将dropout放在BN之后用
3）笔试求AC，可以不考虑空间复杂度，但是面试既要考虑时间复杂度最优，也要考虑空间复杂度最优。

复盘：BN和Dropout共同使用时会出现的问题

文章目录复盘：BN和Dropout共同使用时会出现的问题@[TOC](文章目录)请问;BN和Dropout能共同使用吗？总结

文章目录

请问;BN和Dropout能共同使用吗？

总结

文章目录
复盘：BN和Dropout共同使用时会出现的问题
@[TOC](文章目录)
请问;BN和Dropout能共同使用吗？
总结