9月李宏毅机器学习-学习笔记-Task05-ss

p5 局部最小值与鞍点

Optimization fails

image
卡在梯度0点

  • 局部最佳
  • 鞍点

利用Hessian矩阵的特征值正负关系可以判断是否是鞍点

Saddle point v.s. Local Minima

image

在更高维的空间有更多的路径可以到达global minima

p6 批次和动量

Small Batch vs Large Batch

image

每个批次都更新一次参数,小批次的噪声较大,大批次处理时间久,处理稳定

归功于GPU的平行计算能力,在极限范围内大批次和小批次的处理能力几乎相同
image

小batch size的噪声往往有利于结果和testing,可能的解释为:

对比图
image

Momentum

利用前一步的梯度下降方向,结合本步梯度方向来决定实际梯度下降方向

p7自动调整学习速率

loss 无法下降的时候并不一定是梯度为零

固定学习率往往无法达到minima

adagrad

RMSProp

Adam

RMSProp+Momentum

warn up & learning rate decay

warn up:先加速再减速

sum up

p8 loss 函数的影响

classification as regression

image

class as one-hot vector

image

soft-max

MSE 与 cross-entropy

MSE在loss很大时比较平坦,难以训练
pytorch 在每个cross-entropy前自动增加一层 sigmoid

p9 batch normalization

Changing landscape

image

Feature normalization

  1. 要求batch size 相对较大

  2. 将feature 搬离均值0

  3. batch normalization 最主要的帮助还是减小了error surface 的崎岖性。
浙ICP备19012682号