机器学习笔记8——抑制过拟合之Dropout、BN

2022-09-22 14:37:58

过拟合：网络在训练数据上效果好，在测试数据上效果差。
抑制过拟合的方法有以下几种：（1）dropout（2）正则化（3）图像增强
本次主要谈论一下dropout

dropout

定义：是一种在学习的过程中随机删除神经元的方法。训练时随机选取隐藏层的神经元，并将其删除。如图所示：
在这里插入图片描述

主要作用：
（1）取平均的作用

（2）减少神经元之间复杂的共适应关系：因为dropout程序导致两个神经元不一定每次都在一个dropout网络中出现。这样权值的更新不再依赖于有固定关系的隐含节点的共同作用，阻止了某些特征仅仅在其它特定特征下才有效果的情况。

（3）Dropout类似于性别在生物进化中的角色：物种为了生存往往会倾向于适应这种环境，环境突变则会导致物种难以做出及时反应，性别的出现可以繁衍出适应新环境的变种，有效的阻止过拟合，即避免环境改变时物种可能面临的灭绝。

dropout层只有在训练有效，在测试时无效。

实现：
self.drop = nn.Dropout()
默认值为0.5

什么是标准化

传统机器学习中标准化也叫做归一化，一般是将数据映射到指定的范围，用于去除不同维度数据的量纲以及量纲单位。

数据标准化让机器学习模型看到的不同样本彼此之间更加相似，这有助于模型的学习与对新数据的泛化。

常见的数据标准化形式：标准化和归一化
将数据减去其平均值使其中心为 0，然后将数据除以其标准差使其标准差为 1。

什么是批标准化（BN）

Batch Normalization, 批标准化, 和普通的数据标准化类似, 是将分散的数据统一的一种做法, 也是优化神经网络的一种方法。

批标准化, 不仅在将数据输入模型之前对数据做标准化。在网络的每一次变换之后都应该考虑数据标准化.
即使在训练过程中均值和方差随时间发生变化，它也可以适应性地将数据标准化。

1. 作用：
解决梯度消失与梯度爆炸的问题。
关于梯度消失，以sigmoid函数为例子，sigmoid函数使得输出在[0,1]
之间。

在这里插入图片描述
如果输入很大，其对应的斜率就很小，反向传播梯度就很小，学习速率就很慢。

做标准化可以加速收敛，在神经网络使用标准化也可以加速收敛，具有正则化的效果，提高模型的泛化能力，允许更高的学习速率从而加速收敛

批标准化有助于梯度传播，因此允许更深的网络。对于有些特别深的网络，只有包含多个BatchNormalization 层时才能进行训练。

2. 批标准化的代码实现：

nn.BatchNorm1d()
nn.BatchNorm2d()

3. 实现过程
1.求每一个训练批次数据的均值
2.求每一个训练批次数据的方差
3.数据进行标准化
4.训练参数γ，β
5.输出y通过γ与β的线性变换得到原来的数值在训练的正向传播中，不会改变当前输出，只记录下γ与β。在反向传播的时候，根据求得的γ与β通过链式求导方式，求出学习速率以至改变权值。

4. 批标准化的预测过程
对于预测阶段时所使用的均值和方差，其实也是来源于训练集。比如我们在模型训练时我们就记录下每个batch下的均值和方差，待训练完毕后，我们求整个训练样本的均值和方差期望值，作为我们进行预测时进行BN的的均值和方差。

5. 批标准化的使用位置
model.train()和model.eval()
指示模型应在训练模式还是在推理模式下运行。
训练模式 ：将使用当前批输入的均值和方差对其输入进行标准化。
推理模式 ：将使用在训练期间学习的移动统计数据的均值和方差来标准化其输入。

批标准化一般放在激活函数之后。