Backpropagation

Backpropagation：反向传播算法

解决的问题：有效计算百万维参数的梯度 $\nabla L(\boldsymbol{\theta})$ <= 更有效的Gradient Desent方法

核心 - 链式法则

$\frac{\partial L(\boldsymbol{\theta})}{\partial w}=\sum_{i=1}^n\frac{\partial C^n(\boldsymbol{\theta})}{\partial w}\\ z=\boldsymbol{x^i}\boldsymbol{w^i}+b^i=\sum_{j=1}^Nx^i_jw^i_j+b^i$

根据链式法则：

$\frac{\partial C}{\partial w}=\frac{\partial C}{\partial z}\frac{\partial z}{\partial w}$

Forward pass：对所有参数计算$\partial z/\partial{w}$

——-> 其实就是 $w$ 对应的输入

Backward pass：对所有激活函数的输入 $z$ 计算 $\frac{\partial C}{\partial z}$ ，其中 $C$ 表示某一维的Cross Entropy

$\frac{\partial C}{\partial z}=\frac{\partial C}{\partial a}\frac{\partial a}{\partial z} =\sigma'(z)\Big[w_3\frac{\partial C}{\partial z'}+w_4\frac{\partial C}{\partial z''}\Big]$

从另一个角度来看，可以把这个式子看作一个反向传播的neuron

不同的是，在给定 $z$ 的情况下，$\sigma’(z)$ 是个常数，而不是激活函数。

用这种方法就可以从后往前依次算出每个 $z_i$ 的偏微分