Gradient Descent

gradient：Loss的等高线的法线方向

$\left[\begin{array}{cc} \theta_1^1 \\ \theta_2^1 \end{array} \right] = \left[\begin{array}{cc} \theta_1^0 \\ \theta_2^0 \end{array} \right] - \eta \left[\begin{array}{cc} \frac{\partial L(\theta_1^0)}{\partial \theta_1} \\ \frac{\partial L(\theta_2^0)}{\partial \theta_2} \end{array} \right]$ 记作： $\boldsymbol{\theta}^1 =\boldsymbol {\theta}^0-\eta \nabla L(\boldsymbol {\theta}^0)$

1. 小心调整学习率Learning Rate

可视化参数更新次数和Loss的关系，根据这个图，调整学习率

Adaptive Learning Rates 自适应学习率

总原则：通常学习率随着参数的更新越来越小，例如： $\eta^t = \eta/\sqrt{t+1}$
为不同的参数设置不同的学习率，例如Adagrad： $w^{t+1}\leftarrow w^t-\frac{\eta^t}{\sigma^t}g^t$ ，其中 $\sigma^t$ 是个与参数有管的函数，表示过去所有微分值[包括本次]的均方根（RMS：root mean square 所有值的平方求和均值再开方）； $\eta ^t$ 是个与更新次数有关的函数（同上）：
$w^{t+1}\leftarrow w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t$
分母可以处理梯度突变的情况

Adam 是现在比较好的更新学习率的方法，训练时间短
在不同参数间比较，需要同时考虑一阶导和二阶导 $\frac{|一阶导数|}{二阶导数}$ ，可以发现Adagrad的分母恰好是二阶导的近似

2. Stochastic Gradient Descent 随机梯度下降

不在全部数据上求loss和，而是选取一个样本计算loss，梯度也只计算这个样本的梯度

比较快

3. Feature Scaling 特征归一化

不归一化的话，各个方向的学习率各有不同，有的方向变化快，学习率就要小一点；有的方向变化慢，学习率就要大一点。

归一化后，各个方向可以使用相同的学习率

一般方法：对某一个维度 $i$ 的数据，求平均值 $m_i$ 和标准方差 $\sigma_i$ ， $x^r_i\leftarrow \frac{x^r_i-m_i}{\sigma_i}$