Linear Regression 的cost function如下:
是一个凸函数,也就是一个类似于开口向上的碗,它一定有最小值,并且只有一个局部极小值,那么你用梯度下降方法逐步更新theta的时候:
拟合函数最终一定会收敛到全局最优解
如果损失函数是非凸函数则不一定,因为参数初值的设置必然影响最终收敛的位置,能否达到全局最优解主要取决于参数初值的设置。
批量梯度下降法就是最普通的梯度下降法而已,相比于随机梯度下降法来说只是更容易收敛到全局最优点,这是由于批量操作在一定程度上起到了淹没噪声影响的作用。但是,批量梯度下降法在损失函数为非凸函数的情况下仍然不能保证一定可以达到全局最优点。
梯度下降和随机梯度下降之间的关键区别:
1、标准梯度下降是在权值更新前对所有样例汇总误差,而随机梯度下降的权值是通过考查某个训练样例来更新的。
2、在标准梯度下降中,权值更新的每一步对多个样例求和,需要更多的计算。
3、标准梯度下降,由于使用真正的梯度,标准梯度下降对于每一次权值更新经常使用比随机梯度下降大的步长。
4、如果标准误差曲面有多个局部极小值,随机梯度下降有时可能避免陷入这些局部极小值中。
相关知识:
1、梯度下降法是一个最优化算法,通常也称为最速下降法。最速下降法是求解无约束优化问题最简单和最古老的方法之一,虽然现在已经不具有实用性,但是许多有效算法都是以它为基础进行改进和修正而得到的。最速下降法是用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。
缺点:
(1)靠近极小值时收敛速度减慢。
(2)直线搜索时可能会产生一些问题。
(3)可能会“之字形”地下降。
2、随机并行梯度下降算法,简称SPGD算法。作为一种无模型优化算法,比较适用于控制变量较多,受控系统比较复杂,无法建立准确数学模型的最优化控制过程。