Gradient Descent
gradient:Loss的等高线的法线方向
记作:
1. 小心调整学习率Learning Rate
可视化参数更新次数和Loss的关系,根据这个图,调整学习率
Adaptive Learning Rates 自适应学习率
总原则:通常学习率随着参数的更新越来越小,例如:
为不同的参数设置不同的学习率,例如Adagrad: ,其中 是个与参数有管的函数,表示过去所有微分值[包括本次]的均方根(RMS:root mean square 所有值的平方求和均值再开方); 是个与更新次数有关的函数(同上):
分母可以处理梯度突变的情况
Adam 是现在比较好的更新学习率的方法,训练时间短
在不同参数间比较,需要同时考虑一阶导和二阶导 ,可以发现Adagrad的分母恰好是二阶导的近似
2. Stochastic Gradient Descent 随机梯度下降
不在全部数据上求loss和,而是选取一个样本计算loss,梯度也只计算这个样本的梯度
比较快
3. Feature Scaling 特征归一化
不归一化的话,各个方向的学习率各有不同,有的方向变化快,学习率就要小一点;有的方向变化慢,学习率就要大一点。
归一化后,各个方向可以使用相同的学习率
一般方法:对某一个维度的数据,求平均值和标准方差 ,