【NLP高频面题】LSTM的前向计算如何进行加速?

server/2025/1/23 18:52:09/

【NLP高频面题】LSTM的前向计算如何进行加速?

重要性:★★★

核心思想:将小矩阵合并成大矩阵再进行梯度分块(Reduce → Map)。

  1. 合并计算遗忘门、输入门、输出门和新增信息的仿射变换,使用“大矩阵”加速运算
  2. 通过slice 节点将矩阵分成了 4 份,因此它的反向传播需要整合 4 个梯度

现在我们先来整理一下 LSTM 中进行的计算,如下所示:

这里需要注意式中的 4 个仿射变换。这里的仿射变换是指 x W x + h W h + b xW_x + hW_h + b xWx+hWh+b 这样的式子。4 个仿射变换,其实可以整合为通过 1 个式子进行,如下图所示。

整合4个权重,通过1次仿射变换进行4个计算:

如此,原本单独执行 4 次的仿射变换通过 1 次计算即可完成,可以加快计算速度。这是因为矩阵库计算“大矩阵”时通常会更快。

整合4个权重进行仿射变换的LSTM的计算图:

仿射变换的形状的改变:

批大小是 N,输入数据的维数是 D,记忆单元和隐藏状态的维数都是 H。另外,计算结果 A 中保存了 4 个仿射变换的结果。因此,通过 A[:, :H]、A[:, H:2H] 这样的切片取出数据,并分配给之后的运算节点。

slice节点的正向传播(上)和反向传播(下):


http://www.ppmy.cn/server/160820.html

相关文章

[Effective C++]条款48 模板元编程(TMP)

本文初发于 “天目中云的小站”,同步转载于此。 条款48 : 认识template元编程 在条款47我们主要了解了萃取器这种模板元编程, 也初步进入了模板元编程的世界. 在本条款中, 我们将继续认识模板元编程, 认识其必要性和应用场景, 相比于条款47讲的还算比较深入,本条款真…

《从入门到精通:蓝桥杯编程大赛知识点全攻略》(五)-数的三次方根、机器人跳跃问题、四平方和

本博客将详细探讨如何通过二分查找算法来解决这几个经典问题。通过几个实际的例子,我们将展示如何在这些问题中灵活应用二分查找,优化计算过程,并在面对大数据量时保持高效性。 目录 前言 数的三次方根 算法思路 代码如下 机器人跳跃问题…

python学opencv|读取图像(三十八 )阈值自适应处理

【1】引言 前序学习了5种阈值处理方法,包括(反)阈值处理、(反)零值处理和截断处理,相关文章链接为: python学opencv|读取图像(三十三)阈值处理-灰度图像-CSDN博客 python学opencv|读取图像(三十四&#…

Golang的图形编程基础

Golang的图形编程基础 一、Golang对图形编程的支持 语言是一种优雅的、简洁的编程语言,它在图形编程领域也有着广泛的应用。Golang通过一些第三方库和工具支持图形编程,开发者可以利用这些工具来创建丰富多彩的图形界面和可视化效果。 是一个使用Go语言编…

STM32-CAN总线

1.CAN总线简介 CAN总线是由BOSCH公司开发的一种简洁易用、传输速度快、易扩展、可靠性高的串行通信总线 2.CAN总线特征 两根通信线(CAN_H、CAN_L),线路少,无需共地差分信号通信(相对的是单端信号)&#…

NodeJs如何做API接口单元测试? --【elpis全栈项目】

NodeJs API接口单元测试 api单元测试需要用到的 assert:断言库 (还要一些断言库比如:Chai)supertest: 模拟http请求 简单的例子: const express require(express); const supertest require(supertest); const assert require(assert);…

【Red Hat8】:搭建DHCP服务器

1、新建挂载文件 2、挂载 3、关闭防火墙 4、搭建yum源 (搭建的时候用vim 自行定义文件名.repo或者是vi 自行定义文件名.repo) 5、安装dhcp-server 6、复制模板文件 dhcpd.conf 是DHCP服务的配置文件,DHCP服务所有参数都是通过修改dhcpd.co…

澎峰科技计算软件栈与沐曦GPU完成适配和互认证

近期,澎峰科技与沐曦完成了对PerfXLM(推理引擎)、PerfXCloud(大模型服务平台)与沐曦的曦云系列通用计算GPU的联合测试,测试结果表明PerfXLM、PerfXCloud软件与沐曦GPU产品实现了全面兼容。 PerfXLM高性能大…