论文阅读笔记-Self-Attention

embedded/2024/10/15 17:32:28/

前言

Self-Attention能够将每个元素和当前时刻元素进行比较来确定上下文元素的重要性,这也使得它在NLP模型中表现优异。而本篇文章则是将卷积结构与Self-Attention结构进行了比较,通过 实验证明了这样的卷积结构同样有着高效的计算和足以和Self-Attention媲美的效果。本篇文章所述的卷积结构是基于non-separable convolutions和depthwise separable convolutions,不清楚深度可分离卷积的小伙伴可以参考这篇文章:深度可分离卷积

在这里插入图片描述

Self-Attention被定义为基于内容的表示,如上图a中所示,其中通过将当前时刻与上下文中的所有元素进行比较来计算注意力权重,这种不受上下文大小限制的计算比较能力,也被视为Self-Attention的核心能力。当然,这种能力也是需要付出代价的,就是计算复杂度是输入长度的二次方,这也使得在相对较长的文本中进行计算成本变得非常的高。

Dynamic convolutions基于lightweight convolutions 构建的,其每个时刻预测不同的卷积核,也就是说卷积核只学习当前时间步的相关信息,而不是学习全局信息。动态卷积在轻量卷积的基础之上,增加了一个可学习的参数单元来影响时间步的权重,这有点类似于局部Attention,只不过相较来说没有考虑前一时刻的权重信息。

结构细节

这篇文章对几种卷积的关联进行了可视化的阐述。
在这里插入图片描述
其中的GLU结构可以参考这篇文章。LConv(LightConv)就是基于DepthwiseConv进行计算得到的,如序列中的第 i i i 个元素和输出通道 c c c 公式推导如下:
D e p t h w i s e C o n v ( X , W , i , c ) = ∑ j = 1 k W c , j ⋅ X ( i + j − ⌈ k + 1 2 ⌉ ) , c DepthwiseConv(X, W, i, c) = \sum_{j=1}^k W_{c,j} \cdot X_{(i+j-\lceil \frac{k+1}{2} \rceil),c} DepthwiseConv(X,W,i,c)=j=1kWc,jX(i+j2k+1),c
L i g h t C o n v ( X , W ⌈ c H d ⌉ , : , i , c ) = D e p t h w i s e C o n v ( X , s o f t m a x ( W ⌈ c H d ⌉


http://www.ppmy.cn/embedded/127982.html

相关文章

螺蛳壳里做道场:老破机搭建的私人数据中心---Centos下Docker学习07(基于docker容器的防火墙及NAT企业实战)

7.1 网络准备 7.2 网络规划 1)虚拟网络编辑器 点击右下方“更改设置”,点击“添加网络”假如vmnet3和vmnet4,然后分别选择vmnet3和vmnet4,设置为“仅主机模式”,按③处处理,去掉“使用DHCP”,…

【DataSophon】DataSophon1.2.1 整合Zeppelin并配置Hive|Trino|Spark解释器

目录 ​一、Zeppelin简介 二、实现步骤 2.1 Zeppelin包下载 2.2 work配置文件 三、配置常用解释器 3.1配置Hive解释器 3.2 配置trino解释器 3.3 配置Spark解释器 一、Zeppelin简介 Zeppelin是Apache基金会下的一个开源框架,它提供了一个数据可视化的框架&am…

Python创建多个线程分别启动http、WebSocket服务

我的计划是启动主程序后新建3个独立的线程,一个线程执行PLC读取,一个线程启动工艺测试(含http服务),另外一个线程启动WebSocket。 新增 /lib/PlcReader.py # 执行 PLC 读取类 # 读取 PLC 配置文件 # 定时&#xff08…

在 MoonBit 实现线段树(二)

引言 在上一篇文章当中我们讨论了最基础线段树的实现,但那棵线段树只能做到区间的查询(当然单点的修改与查询也是可以的),但做不到区间的修改(一个经典的应用是区间加法,即整个区间都加上某个值&#xff0…

Python入门笔记(七)

文章目录 第十五章. 下载数据15.1 csv文件15.2 json文件 第十六章. 使用API16.1 requests 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。 点击跳转:人工智能从入门到精通教程 本文电子版获取…

《Oracle DB备份与恢复》开篇:一切从Oracle Incarnation开始

题记:从本篇开始,我将为大家介绍Oracle DB备份与恢复。备份恢复是DBA的核心工作,重在实操,多加练习,模拟各种DB或实例崩溃的场景。不同于一些博主一出场就讲如何备份恢复,我将从备份的源头原理开始介绍。本…

Unite Shanghai 2024 技术专场 | Unity 6及未来规划:Unity引擎和服务路线图

在 2024 年 7 月 24 日的 Unite Shanghai 2024 技术专场演讲中,Unity 高级技术产品经理 Jeff Riesenmy 带来演讲 Unity 6 and Beyond: A Roadmap of Unity Engine and Services。作为本次 Unite 首场专题演讲,他介绍了 Unity 引擎的最新进展及其配套的工…

django urlconf反向解析

Django 的 URLconf 反向解析是指通过 URL 的名称(name 参数)来生成 URL,而不是在代码中硬编码 URL 路径。这种方式更加灵活,方便在 URL 结构发生变化时,只需要修改 URL 模式,而不必修改代码中的所有路径引用…