Task03:误差和梯度下降

1.梯度下降数学理论–泰勒展开式
1)泰勒展开式定义:
若h(x)在x = x0点的某个领域内有无限阶导数(即无限可微分,infinitely differentiable),那么在此领域内有关于x0点的泰勒展开式。


当x很靠近x0时,有h(x)≈h(x0) + h’(x0)(x-x0),梯度下降方法就用到了这个公式
2)现在考虑有2个参数x,y损失函数h(x,y),假如现在参数为x1 = a, y1 = b, 如何找到a和b附近的点作为梯度下降的点呢?我们通过泰勒展开式化简可以发现损失函数的大小取决于h(x,y)在a,b点处偏导数u = h’(a) 和 v = h’(b)组成的向量(u, v)和x,y下一个位置的增量Δx、Δy组成的向量(Δx, Δy)的内积, 那么内积怎么样才能最小呢?2个向量方向相反内积最小,所以我们能够得到Δx = -lr * u, Δy = -lr * v,这个lr就是我们前面学过的梯度下降学习率, 所以[x2,y2] = [a, b] - lr * [u, v]
3)但是泰勒展开式要求点和附近的点距离足够小,才成立,这样才能把后面的多次项去掉,所以lr要求足够小

浙ICP备19012682号