Xavier 初始化_xavier初始化-CSDN博客

Xavier 初始化

为什么在 $W[l]=np.random.randn(shape)×np.sqrt(1n[l−1])W^{[l]}=np.random.randn(shape)\times np.sqrt(\frac{1}{n^{[l-1]}})$ 中需要乘以 $np.sqrt(1n[l−1])np.sqrt(\frac{1}{n^{[l-1]}})$

Xavier 初始化通过保持输入和输出之间的方差不变来尽可能避免梯度爆炸/消失。

它假设每个神经元的输入和输出是从一个均值 $μ\mu$ 为零、方差 $σ2\sigma^2$ 相同的分布中抽样得到的，而这个分布的方差可以通过输入和输出的维度来估计。

对于权重矩阵 $W^{[l]}$ 采用高斯分布来初始化： $N(0,σ2)\mathcal{N}(0, \sigma^2)$

若 $W^{[l]}$ 方差很大（取值范围非常广泛） $→\rightarrow$ $l$ 层的输出值 $z$ 很大

$→\rightarrow$ 激活函数 $a$ 的斜率很大（ $l$ 层的输出 $z$ 就是 $a$ 的输入）

$→\rightarrow$ $l$ 层权重的梯度变大（ $l$ 层权重的梯度与激活函数的斜率成正比）

$→\rightarrow$ 可能引发梯度爆炸

主要零均值： 高斯分布的均值为零，这意味着在初始化权重时，期望值为零，不会引入任何偏差。
若 $!=0\mu~!=0$ ，就会引入一个初始的偏差（记为 bias_orig）。假设 $a = g (z)$ ，且只有一个输出层。

$y^=Wx+b\hat{y}=Wx+b$

当引入偏差之后， $y^=Wx+b+bias_orig\hat{y} = Wx+b +bias\_orig$

也就是在基本预测函数的基础上加上了额外的偏差。

即：本来预测函数与真实有一定的偏差，但是加上了额外的偏差，与真实偏差更大。
- 偏差：模型预测值与真实值之间的差距
其次对称性： 高斯分布是对称的，这意味着权重的正值和负值出现的概率相等，从而可以避免引入偏斜。

那么某一个神经元输出也就是 $=w_1x_1+w_2x_2+\cdots+w_nx_n=\mathop{\Sigma}\limits_{i=1}^{n_{in}}w_ix_i,b=0$

假设 $x$ 的输入也具有均值 $μ=0\mu =0$ ，方差 $γ2\gamma^2$

$\mathop{\Sigma}\limits_{i=1}^{n_{in}}E[w_ix_i]$
$=Σi=1ninE[wi]E[xi]=\mathop{\Sigma}\limits_{i=1}^{n_{in}}E[w_i]E[x_i]$
$= 0$

$D(z)=E(z^2)-E(z)^2$
$=Σi=1ninE[wi2xi2]−0=\mathop{\Sigma}\limits_{i=1}^{n_{in}}E[w_i^2x_i^2]-0$
$=Σi=1ninE[wi2]E[xi2]=\mathop{\Sigma}\limits_{i=1}^{n_{in}}E[w_i^2] E[x_i^2]$

$=ninσ2γ2=n_{in}\sigma^2\gamma^2$

$E[w2]=D(w)−(E[w])2=D(w)=σ2E[w^2] = D(w)-(E[w])^2=D(w)=\sigma^2$

$E[x2]=D(x)−(E[x])2=D(x)=γ2E[x^2] = D(x)-(E[x])^2=D(x)=\gamma^2$

由于需要保证输入与输出的方差一致： $D(z)=γ2D(z)=\gamma^2$

那么 $ninσ2=1n_{in}\sigma^2 = 1$

若只考虑正向传播，那么 $σ=1nin\sigma = \sqrt{\frac{1}{n_{in}}}$

也就是 $np.sqrt(1n[l−1])np.sqrt(\frac{1}{n^{[l-1]}})$

那么权重矩阵 $W^{[l]}$ 采用高斯分布来初始化： $N(0,σ2)\mathcal{N}(0, \sigma^2)$

其中 $σ=1n[l−1]\sigma = \sqrt{\frac{1}{n^{[l-1]}}}$

即： $W[l]=np.random.randn(shape)×np.sqrt(1n[l−1])W^{[l]}=np.random.randn(shape)\times np.sqrt(\frac{1}{n^{[l-1]}})$

$n p . r an d o m . r an d n (s ha p e)$ 默认服从 $N(0,1)\mathcal{N}(0, 1)$