0%

Backpropagation

Backpropagation:反向传播算法

解决的问题:有效计算百万维参数的梯度 $\nabla L(\boldsymbol{\theta})$ <= 更有效的Gradient Desent方法

核心 - 链式法则

根据链式法则:

Forward pass:对所有参数计算$\partial z/\partial{w}$

——-> 其实就是 $w$ 对应的输入

Backward pass:对所有激活函数的输入 $z$ 计算 $\frac{\partial C}{\partial z}$ ,其中 $C$ 表示某一维的Cross Entropy

1616595463334

从另一个角度来看,可以把这个式子看作一个反向传播的neuron

1616595733832

不同的是,在给定 $z$ 的情况下,$\sigma’(z)$ 是个常数,而不是激活函数。

用这种方法就可以从后往前依次算出每个 $z_i$ 的偏微分

1616596162130