# Regularization和Dropout

# Regularization

增加训练集的量是减少 $overfitting$ 的途径之一

减小神经网络的规模可以减小过拟合，但是更深层更大的网络潜在有更强的学习能力，即使对于固定的神经网络和固定的训练集，仍然可以减少 $overfitting$ ：

最常见的一种 $regularization:(weight \: decay) \: L2 \: regularization$

在 $cross-entropy$ 上进行改进

$C = -\frac{1}{n}\sum_{xj}[y_jlna^L_j+(1-y_j)ln(1-a^L_j)] + \frac{\lambda}{2n}\sum_ww^2$

增加了一项：权重之和（将所有神经网络里的权重相加）

其实，对于任何的 $Cost$ ，都可以进行类似的改动，在后面加上权重的和

$C = C_0 + \frac{\lambda}{2n}\sum_w w^2$

$Regularization$ 的 $Cost$ 偏向于让神经网络学习比较小的权重 $w$ ，除非第一项 $C_0$ 明显减少。 $\lambda$ 用来调节两者的相对重要程度。

在进行 $Regularization$ 后，对 $Cost$ 求偏导，得到

$\frac{\partial C}{\partial w} = \frac{\partial C_0}{\partial w} +\frac{\lambda}{n}w$

$\frac{\partial C}{\partial b} = \frac{\partial C_0}{\partial b}$

可以发现，对于偏向，偏导数不变；对于权重，则多了后边一项。

因此更新权重的时候，变为

$w \rightarrow w - \eta\frac{\partial C_0}{\partial w} - \frac{\eta\lambda}{n}w = (1-\frac{\eta\lambda}{n})w - \eta\frac{\partial C_0}{\partial w}$

偏向 $b$ 仍然为

$b \rightarrow b - \frac{\eta}{m}\sum_x \frac{\partial C_x}{\partial b}$

$Regularization$ 网络鼓励更小的权重，在小权重的情况下，x的一些随机变化不会对神经网络的规模造成太大的影响，所以更小可能收到数据局部噪音的影响。Un-regularized神经网络，权重更大，容易通过神经网络模型比较大的改变来适应数据，更容易学习到局部数据噪声。

$Regularization$ 更倾向于学习简单的模型，理论支持还在研究中。

开始的时候，删除隐藏层随机选取的一半神经元，然后在剩余的神经元进行学习。

然后，恢复之前删除过的神经元，重新随机选择一半神经元进行删除，之后再次进行学习。

重复上面两步。

最后，学习出来的神经网络的每个神经元都是在一半神经元的基础上学习出来的，当所有神经元被恢复后，为了进行补偿，我们把隐藏层的所有权重都减半。

假设对于同一组训练数据，利用不同的神经网络来训练，训练完成后，求输出的平均值，这样可以减少 $overfitting$

$Dropout$ 的道理跟这个类似，每次扔到一半隐藏层的神经元，相当于我们在不同的神经网络上训练了，减少了神经元的依赖性，也就是某个神经元不依赖某个或某几个神经元，迫使神经元与其他神经元联合起来更加健壮的特性。