论文阅读笔记-Self-Attention

server/2024/10/18 1:25:58/

前言

Self-Attention能够将每个元素和当前时刻元素进行比较来确定上下文元素的重要性,这也使得它在NLP模型中表现优异。而本篇文章则是将卷积结构与Self-Attention结构进行了比较,通过 实验证明了这样的卷积结构同样有着高效的计算和足以和Self-Attention媲美的效果。本篇文章所述的卷积结构是基于non-separable convolutions和depthwise separable convolutions,不清楚深度可分离卷积的小伙伴可以参考这篇文章:深度可分离卷积

在这里插入图片描述

Self-Attention被定义为基于内容的表示,如上图a中所示,其中通过将当前时刻与上下文中的所有元素进行比较来计算注意力权重,这种不受上下文大小限制的计算比较能力,也被视为Self-Attention的核心能力。当然,这种能力也是需要付出代价的,就是计算复杂度是输入长度的二次方,这也使得在相对较长的文本中进行计算成本变得非常的高。

Dynamic convolutions基于lightweight convolutions 构建的,其每个时刻预测不同的卷积核,也就是说卷积核只学习当前时间步的相关信息,而不是学习全局信息。动态卷积在轻量卷积的基础之上,增加了一个可学习的参数单元来影响时间步的权重,这有点类似于局部Attention,只不过相较来说没有考虑前一时刻的权重信息。

结构细节

这篇文章对几种卷积的关联进行了可视化的阐述。
在这里插入图片描述
其中的GLU结构可以参考这篇文章。LConv(LightConv)就是基于DepthwiseConv进行计算得到的,如序列中的第 i i i 个元素和输出通道 c c c 公式推导如下:
D e p t h w i s e C o n v ( X , W , i , c ) = ∑ j = 1 k W c , j ⋅ X ( i + j − ⌈ k + 1 2 ⌉ ) , c DepthwiseConv(X, W, i, c) = \sum_{j=1}^k W_{c,j} \cdot X_{(i+j-\lceil \frac{k+1}{2} \rceil),c} DepthwiseConv(X,W,i,c)=j=1kWc,jX(i+j2k+1),c
L i g h t C o n v ( X , W ⌈ c H d ⌉ , : , i , c ) = D e p t h w i s e C o n v ( X , s o f t m a x ( W ⌈ c H d ⌉


http://www.ppmy.cn/server/132006.html

相关文章

springboot 整合 快手 移动应用 授权 发布视频 小黄车

前言: 因快手文档混乱,官方社区技术交流仍有很多未解之谜,下面3种文档的定义先区分。 代码中的JSON相关工具均用hutool工具包 1.快手 移动双端 原生SDK 文档https://mp.kuaishou.com/platformDocs/develop/mobile-app/ios.html 2.快手 Api 开…

进入容器:掌控Docker的世界

进入容器:掌控Docker的世界 在这个快速发展的技术时代,你是否曾被Docker的庞大生态所吸引?那么,有没有想过在这个容器化的世界里,如何快速高效地“进入”这些隐藏在虚拟墙后的容器呢?容器就如同魔法箱,装载着应用与服务,而你,通过探索这些容器,能够更好地管理、排除…

应用商店上新:MainConcept Transcoder和Live Streaming Software App

在Akamai云计算平台上运行工作负载的你也许还不知道,为了帮助用户更容易地找到并快速部署各类解决方案,Akamai提供了一个丰富的应用商店(Marketplace),其中包含各类经过验证,可以在Akamai云计算平台上轻松部…

【JavaScript】关于使用JS对word文档实现预览的一些思考

文章目录 mammothdocx4js mammoth 官网地址&#xff1a;https://github.com/mwilliamson/mammoth.js#readme 安装mammoth&#xff1a; npm i mammoth -S我们可以安装mammoth来实现上传的word文件的在线预览&#xff0c;我们以element的上传组件为示例&#xff1a; <temp…

redis 创建只读用户

redis 版本小于 6&#xff0c;不能使用下边发方法创建 1. 临时添加 redis重启后&#xff0c;这个用户就不存在了 先连接redis,在 redis 里边指定添加用户命令 redis-cli ACL SETUSER readonly_user on nopass ~* read -write -admin 【创建的用户没密码】 ACL SETUSER r…

四、创建型(原型模式)

原型模式 概念 原型模式是一种创建型设计模式&#xff0c;通过复制现有对象来创建新对象&#xff0c;而不是通过构造函数。该模式使用原型实例指定创建对象的种类&#xff0c;并通过复制这些原型实例来生成新对象。 应用场景 对象创建成本高&#xff1a;当创建对象的成本较高…

Idea 不显示target目录

https://blog.csdn.net/benwudashi/article/details/114642264 去掉target就可以了

CloseableHttpResponse 类(代表一个可关闭的 HTTP 响应)

CloseableHttpResponse 类是 Apache HttpClient 库中的一个类&#xff0c;代表一个可关闭的 HTTP 响应。当你使用 HttpClient 发送请求时&#xff0c;你会得到一个 CloseableHttpResponse 实例&#xff0c;它包含了服务器的响应数据和状态。处理完响应后&#xff0c;你应该关闭…