0%

Gradient Descent

Gradient Descent

gradient:Loss的等高线的法线方向

记作:

1. 小心调整学习率Learning Rate

可视化参数更新次数和Loss的关系,根据这个图,调整学习率

Adaptive Learning Rates 自适应学习率
  1. 总原则:通常学习率随着参数的更新越来越小,例如:

  2. 为不同的参数设置不同的学习率,例如Adagrad ,其中 是个与参数有管的函数,表示过去所有微分值[包括本次]的均方根(RMS:root mean square 所有值的平方求和均值再开方); 是个与更新次数有关的函数(同上):

    分母可以处理梯度突变的情况

    Adam 是现在比较好的更新学习率的方法,训练时间短

  3. 在不同参数间比较,需要同时考虑一阶导和二阶导 ,可以发现Adagrad的分母恰好是二阶导的近似

2. Stochastic Gradient Descent 随机梯度下降

不在全部数据上求loss和,而是选取一个样本计算loss,梯度也只计算这个样本的梯度

比较快

3. Feature Scaling 特征归一化

不归一化的话,各个方向的学习率各有不同,有的方向变化快,学习率就要小一点;有的方向变化慢,学习率就要大一点。

归一化后,各个方向可以使用相同的学习率

一般方法:对某一个维度的数据,求平均值和标准方差