# Cross-Entropy Cost

我们理想情况是让神经网络学习更快

sigmod函数学习的很慢

因此定义一个新的 $Cost$ 函数 $Cross-Entropy$

$C = -\frac{1}{n}\sum_x[ylna+(1-y)ln(1-a)]$

$C$ 的函数值大于等于 $0$
当 $a = y$ 时， $cost=0$

$\frac{\partial C}{\partial w_j} = -\frac{1}{n}\sum_x(\frac{y}{\sigma(z)} - \frac{(1-y)}{1-\sigma(z)}) \frac{\partial \sigma}{\partial w_j} = -\frac{1}{n}\sum_x(\frac{y}{\sigma(z)} - \frac{(1-y)}{1-\sigma(z)}) \sigma'(z)x_j$

整理后得到

$\frac{\partial C}{\partial w_j} = -\frac{1}{n}\sum_x \frac{\sigma'(z)x_j}{\sigma(z)(1-\sigma(z))} (\sigma(z)-y)$

用 $sigmod$ 函数定义

$\sigma(z) = \frac{1}{1+e^{-z}}$

得到

$\sigma'(z) = \sigma(z)(1-\sigma(z))$

代入上面的偏导方程，得到

$\frac{\partial C}{\partial w_j} = \frac{1}{n}\sum_x x_i(\sigma(z)-y)$

学习的快慢取决于

$\sigma(z) - y$

也就是 $error$ ，好处就是：错误大的时候，更新多，学得快；错误小的时候，学习慢。

对于偏向，有

$\frac{\partial C}{\partial w_j} = \frac{1}{n}\sum_x (\sigma(z)-y)$

其学习快慢同样只与 $error$ 有关，可以提高学习速度。

← 梯度下降算法 Softmax & Overfitting →