深度学习——Xavier初始化方法

news/2024/12/30 3:52:49/

20210609

https://blog.csdn.net/u011534057/article/details/51673458

https://blog.csdn.net/luoxuexiong/article/details/95772045

“Xavier”初始化方法是一种很有效的神经网络初始化方法,方法来源于2010年的一篇论文《Understanding the difficulty of training deep feedforward neural networks》,可惜直到近两年,这个方法才逐渐得到更多人的应用和认可。

为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。
基于这个目标,现在我们就去推导一下:每一层的权重应该满足哪种条件。
文章先假设的是线性激活函数,而且满足0点处导数为1,即


现在我们先来分析一层卷积:

其中ni表示输入个数。

根据概率统计知识我们有下面的方差公式:


特别的,当我们假设输入和权重都是0均值时(目前有了BN之后,这一点也较容易满足),上式可以简化为:


进一步假设输入x和权重w独立同分布,则有:


于是,为了保证输入与输出方差一致,则应该有:


对于一个多层的网络,某一层的方差可以用累积的形式表达:


特别的,反向传播计算梯度时同样具有类似的形式:


综上,为了保证前向传播和反向传播时每一层的方差一致,应满足:


但是,实际当中输入与输出的个数往往不相等,于是为了均衡考量,最终我们的权重方差应满足:

———————————————————————————————————————

———————————————————————————————————————

学过概率统计的都知道 [a,b] 间的均匀分布的方差为:


因此,Xavier初始化的实现就是下面的均匀分布:
——————————————————————————————————————————

———————————————————————————————————————————

下面,我们来看一下caffe中具体是怎样实现的,代码位于include/caffe/filler.hpp文件中。

template <typename Dtype>
class XavierFiller : public Filler<Dtype> {
public:
explicit XavierFiller(const FillerParameter& param)
: Filler<Dtype>(param) {}
virtual void Fill(Blob<Dtype>* blob) {
CHECK(blob->count());
int fan_in = blob->count() / blob->num();
int fan_out = blob->count() / blob->channels();
Dtype n = fan_in; // default to fan_in
if (this->filler_param_.variance_norm() ==
FillerParameter_VarianceNorm_AVERAGE) {
n = (fan_in + fan_out) / Dtype(2);
} else if (this->filler_param_.variance_norm() ==
FillerParameter_VarianceNorm_FAN_OUT) {
n = fan_out;
}
Dtype scale = sqrt(Dtype(3) / n);
caffe_rng_uniform<Dtype>(blob->count(), -scale, scale,
blob->mutable_cpu_data());
CHECK_EQ(this->filler_param_.sparse(), -1)
<< "Sparsity not supported by this Filler.";
}
};
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
由上面可以看出,caffe的Xavier实现有三种选择

(1) 默认情况,方差只考虑输入个数:


(2) FillerParameter_VarianceNorm_FAN_OUT,方差只考虑输出个数:


(3) FillerParameter_VarianceNorm_AVERAGE,方差同时考虑输入和输出个数:


之所以默认只考虑输入,我个人觉得是因为前向信息的传播更重要一些
---------------------
作者:shuzfan
来源:CSDN
原文:https://blog.csdn.net/shuzfan/article/details/51338178
版权声明:本文为博主原创文章,转载请附上博文链接!


http://www.ppmy.cn/news/606195.html

相关文章

Linux学习(8)——常用指令

✨Linux常用指令⛱️ 运行级别&#x1f308;&#x1f308;基本介绍&#x1f308;&#x1f308;如何指定运行级别⛱️(面试题)如何找回root密码⛱️帮助指令⛱️文件目录类⛱️博客推荐&#x1f4c3;个人主页:不断前进的皮卡丘&#x1f31e;博客描述: 梦想也许遥不可及&#xff…

LeetCode简单题之石头与宝石

题目 给你一个字符串 jewels 代表石头中宝石的类型&#xff0c;另有一个字符串 stones 代表你拥有的石头。 stones 中每个字符代表了一种你拥有的石头的类型&#xff0c;你想知道你拥有的石头中有多少是宝石。 字母区分大小写&#xff0c;因此 “a” 和 “A” 是不同类型的石头…

期望、方差、协方差及相关系数的基本运算

这篇文章总结了概率统计中期望、方差、协方差和相关系数的定义、性质和基本运算规则。 一、期望 定义&#xff1a; 设P(x)是一个离散概率分布函数自变量的取值范围是。那么其期望被定义为&#xff1a;设P(x)是一个连续概率分布函数 &#xff0c;那么他的期望是&#xff1a;性质…

[算法刷题笔记]二叉树练习(2):对称二叉树有关的练习

✨对称二叉树有关的练习前言⛱️对称二叉树&#x1f96a;&#x1f96a; 递归&#x1f96a;&#x1f96a;迭代(使用队列)⛱️相同的二叉树&#x1f96a;&#x1f96a;递归&#x1f96a;&#x1f96a;迭代法(使用队列)⛱️判断t1树中是否有与t2树完全相同的子树&#x1f96a;&…

LeetCode简单题之最大连续1的个数

题目 给定一个二进制数组&#xff0c; 计算其中最大连续 1 的个数。 示例&#xff1a; 输入&#xff1a;[1,1,0,1,1,1] 输出&#xff1a;3 解释&#xff1a;开头的两位和最后的三位都是连续 1 &#xff0c;所以最大连续 1 的个数是 3. 提示&#xff1a; 输入的数组只包含 0 和…

Spring Boot项目的搭建和运行

✨Spring Boot项目的搭建和运行&#x1f351;Spring Boot概述&#x1f34a;&#x1f34a;传统框架技术存在的问题&#x1f34a;&#x1f34a;主要特点&#x1f34a;&#x1f34a;环境要求&#x1f351;聚合工程/父子模块&#x1f351;第一个Spring Boot项目&#x1f351;目录结…

LeetCode简单题之密钥格式化

题目 有一个密钥字符串 S &#xff0c;只包含字母&#xff0c;数字以及 ‘-’&#xff08;破折号&#xff09;。其中&#xff0c; N 个 ‘-’ 将字符串分成了 N1 组。 给你一个数字 K&#xff0c;请你重新格式化字符串&#xff0c;使每个分组恰好包含 K 个字符。特别地&#x…

机器都会学习了,你的神经网络还跑不动?来看看这些建议

在很多机器学习的实验室中&#xff0c;机器已经进行了上万小时的训练。在这个过程中&#xff0c;研究者们往往会走很多弯路&#xff0c;也会修复很多bug&#xff0c;但可以肯定的是&#xff0c;在机器学习的研究过程中&#xff0c;学到经验和知识的并不仅仅是机器&#xff0c;我…