BN、dropout的几个问题和思考

2022-10-21 11:18:31

1、BN的scale初始化

scale一般初始化为1.0。

联想到权重初始化时，使用relu激活函数时若采用随机正太分布初始化权重的公式是sqrt(2.0/Nin)，其中Nin是输入节点数。即比一般的方法大了2的平方根（原因是relu之后一半的数据变成了0，所以应乘以根号2）。

那么relu前的BN，是否将scale初始化为根号2也会加速训练？

这里主要有个疑点：BN的其中一个目的是统一各层的方差，以适用一个统一的学习率。那么若同时存在sigmoid、relu等多种网络，以上方法会不会使得统一方差以适应不同学习率的效果打了折扣？

没来得及试验效果，如果有试过的朋友请告知下效果。

2、dropout后的标准差改变问题

实践发现droput之后改变了数据的标准差（令标准差变大，若数据均值非0时，甚至均值也会产生改变）。

如果同时又使用了BN归一化，由于BN在训练时保存了训练集的均值与标准差。dropout影响了所保存的均值与标准差的准确性（不能适应未来预测数据的需要），那么将影响网络的准确性。

若输入数据为正太分布，只需要在dropout后乘以sqrt(0.5)即可恢复原来的标准差。但是对于非0的均值改变、以及非正太分布的数据数据，又有什么好的办法解决呢？

3、稀疏自编码的稀疏系数

稀疏自编码使用一个接近0的额外惩罚因子来使得隐层大部分节点大多数时候是抑制的，本质上使隐层输出均值为负数（激活前），例如惩罚因子为0.05，对应sigmoid的输入为-3.5，即要求隐层激活前的输出中间值为-3.5，那么，是不是可以在激活前加一层BN，beta设为-3.5，这样学起来比较快？

经过测试，的确将BN的beta设为负数可加快训练速度。因为网络初始化时就是稀疏的。

但是是不是有什么副作用，没有理论上的研究。

4、max pooling是非线性的，avg pooling是线性的

作者：lecturekeke
原文链接：https://blog.csdn.net/lecturekeke/article/details/78963022
更新时间：2022-10-21 11:18:31

相关文章

Python3使用requests模块
Requests模块是第三方模块，需要预先安装，requests模块在python内置模块的基础上进行了高度的
2022-11-01

【JAVA】Junit 的注解（Annotation）介绍_@test相关
参考来源：https://www.softwaretestinghelp.com/junit-tutorial
2022-11-01

Spring Boot 通过AOP+自定义注解实现日志管理
Spring Boot 通过AOP+自定义注解实现日志管理
2022-11-01

springboot 基于@Scheduled注解实现定时任务
标题：玩转SpringBoot之定时任务详解作者：mmzsblog原文地址：https://www.mmzsb
2022-11-01

随机文章

SpringBoot拦截器Interceptor
java里的拦截器是动态拦截Action调用的对象，它提供了一种机制可以使开发者在一个Action执行的前后执
2022-06-25

mybatis 查询返回List集合、map集合、List＜Map＞集合
返回map类型1. xml中<select id="selectUser " resultType="
2022-06-25

关于后端跨域报错When allowCredentials is true, all
一般解决方法是新增开启跨域的配置类：@Configuration public class CorsConfi
2022-06-25

java读取文件之BufferedReader
首先说下BufferedReaderBufferedReader类从字符输入流中读取文本并缓冲字符，以便有效地
2022-06-25

文章导航

热门标签

VPN BGP 华为 DHCP 组播 ISIS NAT 交换机 H3C 交换 TCP RADIUS LDP 链路聚合网络工程师小助手路由 QOS IPV6 IGMP CCNA视频教程 MPLS Vlan STP Wireshark PIM BGP选路 LACP IP GPON OSPF

最新文章

PHP范围解析运算符（：:)
介绍在PHP中，双冒号::定义为Scope Resolution Operator。
2023-11-18

完全删除数组中的多余元素-JavaScript
我们需要编写一个函数，该函数接受一个数组并返回一个新数组，该数组已删除了所有重复值。
2023-11-18

在不使用库函数的情况下使用真实/伪造的值展平数组-JavaScript
我们需要编写一个JavaScript数组函数，该函数接受具有伪造值的嵌套数组，并返回
2023-11-18

JavaScript在数组的伪索引处插入元素方法详解
我们需要编写一个Array函数，比如pushAtFalsy()，该函数应该包含一个数
2023-11-18

PHP整数数据类型
定义和用法在PHP中，Integer是标量数据类型，代表数字常量，代表整数，不带任何
2023-11-18

PHP错误控制运算符
介绍在PHP中，将@符号定义为错误控制运算符。当它以任何表达式为前缀时，PHP解析器
2023-11-18

PHP类型杂耍详解
定义和用法PHP被称为动态类型语言。在PHP中既不需要也不支持变量的显式类型声明。与
2023-11-18

PowerShell版本7中引入了哪些新的Null运算符？
PowerShell版本7引入了一些新的空运算符。它们如下。空合并运算符-??空条件
2023-11-18

PowerShell中$ ErrorView的用途是什么？
$Errorview变量确定PowerShell中错误消息的显示格式。在PowerS
2023-11-18

PHP执行运算符
介绍PHP中定义了一个执行运算符。一个字符串内部背蜱S（``）被视为一个DOS命令（
2023-11-18

Copyright © 2022 忙忙碌碌网
把实用的技术和经验，分享给最需要的读者，希望每一位来访的朋友都能有所收获！

文章目录