Transformers 发展一览

news/2025/2/12 0:04:11/

动动发财的小手,点个赞吧!

Transformers 研究概览

alt

1. 介绍

近年来,深度学习的研究步伐显着加快,因此越来越难以跟上所有最新发展。尽管如此,有一个特定的研究方向因其在自然语言处理、计算机视觉和音频处理等多个领域取得的成功而备受关注。这在很大程度上归功于其高度适应性的架构。该模型称为 Transformer,它利用了该领域的一系列机制和技术(即注意力机制)。

2. 分类

迄今为止,基于 vanilla Transformer 探索了一系列全面的模型,大致可分为三类:

  • 网络结构修改
  • 预训练方法
  • 应用
alt

上面的每个类别都包含其他几个子类别,我将在接下来的部分中对其进行彻底研究。图 2. 说明了研究人员修改 Transformers 的类别。

3. 注意力

自注意力在 Transformer 中起着基本作用,尽管它在实践中有两个主要缺点。

  1. 复杂性:对于长序列,该模块成为瓶颈,因为其计算复杂度为 O(T²·D)。
  2. 结构先验:它不解决输入的结构偏差,需要将额外的机制注入训练数据,稍后它可以学习(即学习输入序列的顺序信息)。
alt

因此,研究人员探索了各种技术来克服这些缺点。

  1. 稀疏注意力:该技术试图通过考虑输入的一小部分而不是整个输入序列来降低注意力机制的计算时间和内存要求,从而生成与完整矩阵相反的稀疏矩阵。
  2. 线性化注意力:使用内核特征映射解开注意力矩阵,该方法试图以相反的顺序计算注意力,以将资源需求降低到线性复杂度。
  3. 原型和内存压缩:这一行修改试图减少查询和键值对,以实现更小的注意力矩阵,从而减少时间和计算复杂度。
  4. Low-rank self-attention:通过使用参数化或用低秩近似替换它来显式地建模自注意力矩阵的低秩属性,试图提高 transformer 的性能。
  5. 先验注意力:利用其他来源的先验注意力分布,这种方法将其他注意力分布与从输入中获得的注意力分布相结合。
  6. 改进的多头机构:有多种方法可以修改和提高多头机构的性能,可以归入该研究方向。

4. 总结

总之,Transformer 的分类学和注意力机制的各种进步显着扩展了基于 Transformer 的模型的能力和效率。稀疏注意力技术,例如基于位置和基于内容的稀疏注意力,以及线性化注意力,已经解决了传统密集注意力的计算局限性。查询原型和内存压缩方法引入了创新的方法来提高注意力机制的效率。低秩自注意力启用了参数化和近似技术,以实现更有效的注意力计算。结合先验,例如局部性建模、较低的模块先验和多任务适配器,已经在改善注意力机制方面显示出可喜的结果。最后,对多头机制的修改,例如头部行为建模、限制跨度、精细聚合和其他变体,显示出进一步提高基于 Transformer 的模型性能的潜力。

注意机制的这些进步为未来在自然语言处理、计算机视觉和机器翻译等各个领域的研究和应用提供了令人兴奋的前景。通过利用这些创新技术,基于变压器的模型可以继续突破性能和效率的界限,为高级机器学习应用开辟新的可能性。

本文由 mdnice 多平台发布


http://www.ppmy.cn/news/57371.html

相关文章

递归与分治 题目集

分治法求解全排列问题 对每个输入的整数n&#xff0c;用分治法计算并输出1…n的全排列。 void perm(int a[],int x,int y){if(xy){fer(i,0,y)cout<<a[i]<<" ";cout<<endl;}else{fer(i,x,y){swap(a[i],a[x]);perm(a,x1,y);swap(a[i],a[x]);}} } s…

【排序】归并排序(递归+非递归图示详解哦)

全文目录 引言归并排序思路递归实现 归排非递归思路实现 总结 引言 在本篇文章中&#xff0c;将继续介绍一种排序算法&#xff1a;归并排序。 归并排序运用了归并的思想&#xff0c;即将两个有序数列归并为一个有序数列。在前面的合并两个有序链表时&#xff0c;运用了这种思想…

【华为OD机试真题】超级玛丽通过吊桥的走法(C++Javapython)100%通过率 超详细代码注释 代码解读

超级玛丽通过吊桥的走法 题目描述 超级玛丽好不容易来到新的一关,有一个长长的吊桥,吊桥的尽头是下水管道,其中随机的木板存在缺失,旦踩到就会死亡,死亡后如果还有剩余的生命将在原地复活且不受木板缺失影响,会消耗一次生命,如果跨过了管道,将跌入悬崖,通关失败。 …

Javaweb介绍

Javaweb JavaWeb是一种通过使用Java技术进行Web应用程序开发的方式。Java Web应用程序通常由动态生成的网页组成&#xff0c;与静态的HTML页面不同。 JavaWeb应用程序可以用于各种类型的应用程序&#xff0c;包括电子商务、博客、内容管理系统等。 什么是web容器 Web容器是在…

Python基础合集 练习22 (错误与异常处理语句2)

‘’’ try: 语句块 except: 语句块2 else ‘’’ class Mobe1(): def init(self) -> None: pass def mob1(self):while True:try:num int(input(请输入一个数: ))result 50 / numprint(result)print(50/{0}{1}.format(num, result))except (ZeroDivisionError, ValueEr…

【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2

【VQ-VAE-2论文精读】Generating Diverse High-Fidelity Images with VQ-VAE-2 0、前言Abstract1 Introduction2 Background2.1 Vector Quantized Variational AutoEncoder3 Method3.1 Stage 1: Learning Hierarchical Latent Codes3.2 Stage 2: Learning Priors over Latent C…

LeetCode1376. 通知所有员工所需的时间

【LetMeFly】1376.通知所有员工所需的时间 力扣题目链接&#xff1a;https://leetcode.cn/problems/time-needed-to-inform-all-employees/ 公司里有 n 名员工&#xff0c;每个员工的 ID 都是独一无二的&#xff0c;编号从 0 到 n - 1。公司的总负责人通过 headID 进行标识。…

使用Sybase sp_recompile重新编译存储过程和触发器

Sybase 15.X中提供了内置的存储过程sp_recompile。该存储过程可令表中的存储过程和触发器在下次使用时重新编译。&#xff08;Causes each stored procedure and trigger that uses the named table to be recompiled the next time it runs.&#xff09; 存储过程和触发器使用…