路遥知马力——Momentum动量梯度

news/2024/11/24 20:54:57/

NAG:在滑板下降过程中 也就是速度加快的时候 增大水平方向的力(累计的动量方向) 而在上升的过程中 也就是速度下降的时候
减少垂直方向的力(当前的梯度方向) 两种情况下 的最终结果
都是加大了往最优点方向的值 加速了 接近最优点的速度

本文收录在无痛的机器学习第一季。

写在前面:感谢

@夏龙
对本文的审阅和提出的宝贵意见,欢迎各位大神多多指点。

上一回扯了些关于梯度下降的事情,当然那只是个开头,有关梯度下降相关的内容非常多。为了保证完整性,今天再扯一下另外一个在梯度下降中十分重要的东西,那就是动量——momentum。

这是一个十分神秘的变量,我也只能以最简单的方式理解它,于是在这里班门弄斧了。正如它的中文名字一样,在优化求解的过程中,动量扮演了对之前优化量的持续发威的推动剂。一个已经完成的梯度+步长的组合不会立刻消失,只是会以一定的形式衰减,剩下的能量将继续发挥余热。我们先不加解释的给出基于动量的梯度下降的代码:

def momentum(x_start, step, g, discount = 0.7):   x = np.array(x_start, dtype='float64')pre_grad = np.zeros_like(x)for i in range(50):grad = g(x)pre_grad = pre_grad * discount + grad * stepx -= pre_grad
    print '[ Epoch {0} ] grad = {1}, x = {2}'.format(i, grad, x)if abs(sum(grad)) < 1e-6:break;
return x

可以看出这个算法和之前的梯度下降法相比,唯一不同的就是多了一个pre_grad*discount,这就是动量发挥余热的地方。

那么动量究竟有什么作用呢?今天主要扯它其中的一个作用,那就是帮助你穿越“山谷”。怎么来理解穿越“山谷”呢?先来一个待优化函数。这次的问题相对复杂些,是一个二元二次函数[公式]

def f(x):
return x[0] * x[0] + 50 * x[1] * x[1]
def g(x):
return np.array([2 * x[0], 100 * x[1]])
xi = np.linspace(-200,200,1000)
yi = np.linspace(-100,100,1000)
X,Y = np.meshgrid(xi, yi)
Z = X * X + 50 * Y * Y

上面这个函数在等高线图上是这样的:


其中中心的蓝色点表示了最优值。我们根据这个图发挥下想象,这个函数在y轴十分陡峭,在x轴相对平缓些。好了话说完我们赶紧拿朴素梯度下降来尝试下:

gd([150,75], 0.016, g)

经过50轮的迭代,他的优化过程图如下所示:


可以看出我们从某个点出发,整体趋势向着最优点前进,这个是没有问题的,但是前进的速度似乎有点乏力,是不是步长又设小了?有了之前的经历,这一回我们在设置步长时变得小心了许多:

res, x_arr = gd([150,75], 0.019, g)
contour(X,Y,Z, x_arr)

好像成效不是很明显啊,而且优化的过程中左右来回抖是怎么回事?看着这个曲线让我想起了一个极限运动:


(来自网络,如有侵权立即删除)

没错,其实算法眼中的这个函数很这张图很像,而算法也果然没有让大家“失望”,选择了一条艰难的道路进行优化——就像从一边的高台滑下,然后滑到另一边,这样艰难地前进。没办法,这就是梯度下降法。在它的眼中,这样走是最快的,而事实上,每个优化点所对应的梯度方向也确实是那个方向。

大神们这时可能会聊起特征值的问题,关于这些问题以后再说。好吧,现在我们只能继续挑步长,说不定步长再大点,“滑板少年”还能再快点呢!

res, x_arr = gd([150,75], 0.02, g)
contour(X,Y,Z, x_arr)

好吧……我们的滑板少年已经彻底玩脱了……这已经是我们能设的最大的步长了(上一次关于步长和函数之间的关系在这里依然受用),再设大些我们的滑板少年就飞出去了。对于这个问题,由于两个坐标轴方向的函数属性不同,为了防止在优化的过程中发散,步长只能够根据最陡峭的方向设定。当然,解决快速收敛这个问题还有其他的办法,这里我们看看冲量如何搞定这位滑板少年。

很自然地,我们在想,要是少年能把行动的力量集中在往前走而不是两边晃就好了。这个想法分两个步骤:首先是集中力量向前走,然后是尽量不要在两边晃。这时候,我们的动量就闪亮登场了。我们发现滑板少年每一次的行动只会在以下三个方向进行:

  • 沿-x方向滑行
  • 沿+y方向滑行
  • 沿-y方向滑行
  • 我们可以想象到,当使用了动量后,实际上沿-y和+y方向的两个力可以相互抵消,而-x方向的力则会一直加强,这样滑板少年会在y方向打转,但是y方向的力量会越来越小,但是他在-x方向的速度会比之前快不少!

    好了,那我们看看加了动量技能的滑板少年的实际表现:

    momentum([150,75], 0.016, g)
    

    总算没有让大家失望,尽管滑板少年还是很贪玩,但是在50轮迭代后,他还是来到了最优点附近。可以说是基本完成了我们的任务吧。当然由于动量的问题,前面几轮迭代他在y轴上玩得似乎比以前还欢乐,这个问题我们后面会提。但不管怎么说,总算完成目标了。

    后来,又有高人发明了解决前面动量没有解决的问题的算法,干脆不让滑板少年愉快地玩耍了,也就是传说中的Nesterov算法。这里就不细说了,有时间详细聊下。直接给出代码和结果:

    def nesterov(x_start, step, g, discount = 0.7):   x = np.array(x_start, dtype='float64')pre_grad = np.zeros_like(x)for i in range(50):x_future = x - step * discount * pre_gradgrad = g(x_future)pre_grad = pre_grad * 0.7 + grad x -= pre_grad * step
    
        print '[ Epoch {0} ] grad = {1}, x = {2}'.format(i, grad, x)if abs(sum(grad)) < 1e-6:break;
    return x
    

    nesterov([150,75], 0.012, g)

    好了,滑板少年已经哭晕在厕所……

    费了这么多话,我们总算把穿越“山谷”这件事情说完了,下面还要说一个数值上的事情。在CNN的训练中,我们的开山祖师已经给了我们动量的建议配置——0.9(刚才的例子全部是0.7),那么0.9的动量有多大量呢?终于要来点公式了……

    我们用G表示每一轮的更新量,g表示当前一步的梯度量(方向*步长),t表示迭代轮数,[公式]表示冲量的衰减程度,那么对于时刻t的梯度更新量有:

    [公式] [公式] [公式] [公式]

    那么我们可以计算下对于梯度g0对从G0到GT的总贡献量为

    [公式]

    我们发现它的贡献是一个等比数列,如果[公式]=0.9,那么跟据等比数列的极限运算方法,我们知道在极限状态下,它一共贡献了自身10倍的能量。如果[公式]=0.99呢?那就是100倍了。

    那么在实际中我们需要多少倍的能量呢?

    本文相关代码详见:github.com/hsmyy/zhihuz

    广告时间

    更多精彩尽在《深度学习轻松学:核心算法与视觉实践》!


    在这里插入图片描述

http://www.ppmy.cn/news/605364.html

相关文章

带你十分钟快速入门画图绘图作图神器 Matplotlib_各种画图小结

20220612 excel也可以画图 20220525 U-net架构(例如最低分辨率为32x32像素)。每个蓝框对应一个多通道特征图。通道的数量在方框的顶部表示。x-y尺寸在盒子的左下边缘。白盒代表复制的特征映射。箭头表示不同的操作 神经网络简单清晰的画法 The network architecture is illu…

LeetCode简单题之矩形重叠

题目 矩形以列表 [x1, y1, x2, y2] 的形式表示,其中 (x1, y1) 为左下角的坐标,(x2, y2) 是右上角的坐标。矩形的上下边平行于 x 轴,左右边平行于 y 轴。 如果相交的面积为 正 ,则称两矩形重叠。需要明确的是,只在角或…

从入门到精通:Vuex使用教程,让你更好地管理应用程序状态!

目录 前言 1. 安装和配置Vuex 2. State 3. Mutations 4. Getters 5. Actions 6. Modules 7. 总结 前言 Vuex是Vue.js的一个状态管理库,它可以帮助我们更好地管理应用程序的状态。在Vue.js中,组件之间的通信往往需要借助于props和emit来完成&…

LeetCode简单题之统计平方和三元组的数目

题目 一个 平方和三元组 (a,b,c) 指的是满足 a2 b2 c2 的 整数 三元组 a&#xff0c;b 和 c 。 给你一个整数 n &#xff0c;请你返回满足 1 < a, b, c < n 的 平方和三元组 的数目。 示例 1&#xff1a; 输入&#xff1a;n 5 输出&#xff1a;2 解释&#xff1a;平方…

Python中正则表达式用法 重点格式以这个为准_首看_各种问题

20210811 https://www.jb51.net/article/101258.htm 一.惰性模式的概念: 此模式和贪婪模式恰好相反&#xff0c;它尽可能少的匹配字符以满足正则表达式即可&#xff0c;例如: var str"axxyyzbdkb"; console.log(str.match(/a.*b/));以上代码是贪婪模式&#xff0…

LeetCode简单题之判断根结点是否等于子结点之和

题目 给你一个 二叉树 的根结点 root&#xff0c;该二叉树由恰好 3 个结点组成&#xff1a;根结点、左子结点和右子结点。 如果根结点值等于两个子结点值之和&#xff0c;返回 true &#xff0c;否则返回 false 。 示例 1&#xff1a; 输入&#xff1a;root [10,4,6] 输出…

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

20220121 z-score标准化 模型存储和load再调用其实没有关系 再load计算的时候&#xff0c;也是以实际的数据重新计算 并不是以save模型的边界来计算的 20211227 onehot训练集保存的模型再预测集中缺失的部分并不会自动补全 20210529 MinMaxScaler() https://www.cnblogs.c…

LeetCode简单题之使用特殊打字机键入单词的最少时间

题目 有一个特殊打字机&#xff0c;它由一个 圆盘 和一个 指针 组成&#xff0c; 圆盘上标有小写英文字母 ‘a’ 到 ‘z’。只有 当指针指向某个字母时&#xff0c;它才能被键入。指针 初始时 指向字符 ‘a’ 。 每一秒钟&#xff0c;你可以执行以下操作之一&#xff1a; 将…