原理
算法目标 逐渐逼近损失函数loss 的极小值,简单抽象为求函数 的极小值。
2、
算法描述 每次取一个增量 ,使得 ,每次向函数值更小的地方前进一小步,多次迭代就能做到逐渐逼近函数 的极小值。
3、
算法推导 展开 得到公式 。 其中H为海森矩阵,暂且不考虑。为使 成立,只需要保证 。 即,当 时, ,如此即可保证每次更新在逐渐逼近函数的极小值。其中 为学习率是一个较小的正数。 每次更新时做 操作,求得 的最小值。
4、
注意 上述过程是在逼近极小值,不一定是函数的最小值。 是一种下降趋势,整个循环步骤中函数值 在下降,并非每个小步骤得到的函数值都比前一次要小。