transformer从开始到结束

news/2024/11/18 0:12:04/

首先输入是64 * 10的矩阵,代表64个句子,每个句子10个词。

 X = self.positionalEncoding(self.embedding(X)*math.sqrt(self.num_hiddens))

在经过embeddeding之后,变为64 * 10 *32 矩阵,每个词使用32维向量表示。然后将数据放入 X = encoder_block(X,valid_lens),这里我们将block设为1,就是encoderBlock只有一层。valid_lens是一个64 * 1的向量,表示每句话的有用的向量。

随后就进入Y = self.addnorm1(X,self.multihead_attention(X,X,X,valid_lens)),先进入多头注意力机制。

queries = transpose_qkv(self.W_q(queries),self.num_heads)
keys = transpose_qkv(self.W_k(keys),self.num_heads)
values = transpose_qkv(self.W_v(values),self.num_heads)

self.W_q、self.W_k、self.W_v均为全连接层,将输入的X,进行不同的变换。这里的num_heads为4,transpose_qkv函数会将query进行切分。

def transpose_qkv(X,num_heads):# 输入为64*10*32  X = X.reshape(X.shape[0],X.shape[1],num_heads,-1)#torch.Size([64, 10, 4, 8])X = X.permute(0, 2, 1, 3)#torch.Size([64, 4, 10, 8])return X.reshape(-1, X.shape[2], X.shape[3])#输入为torch.Size([256, 10, 8])
一共有64句话,此次的head为4,也就是每行句子需要4次不同的self-attention,一共需要256次,
其中每次self-attention中query与单词个数相同均为10,query的由一个长度为8的向量表示。这也就是256*10*8的由来。

http://www.ppmy.cn/news/988182.html

相关文章

VMPWN的入门系列-2

温馨提示: 文章有点长,图片比较多,请耐心阅读 实验四 VMPWN4 题目简介 这道题应该算是虚拟机保护的一个变种,是一个解释器类型的程序,何为解释器?解释器是一种计算机程序,用于解释和执行源代码。…

大数据课程D5——hadoop的Sink

文章作者邮箱:yugongshiyesina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 掌握Sink的HDFS Sink; ⚪ 掌握Sink的Logger Sink; ⚪ 掌握Sink的File Roll Sink; ⚪ 掌握Sink的Null Sink; ⚪ 掌握Si…

服务器出现丢包的原因103.88.35.x

网站主要目的是达到企业和客户紧密联系,提升客户对企业形象的认知度的效果,若租用的服务器不稳定,不仅影响网站的运行,对于网站搜索引擎优化以及用户体验等也有很大的影响。下面是服务器出现丢包不稳定的原因,一起来看…

【论文阅读】通过解缠绕表示学习提升领域泛化能力用于主题感知的作文评分

摘要 本文工作聚焦于从领域泛化的视角提升AES模型的泛化能力,在该情况下,目标主题的数据在训练时不能被获得。本文提出了一个主题感知的神经AES模型(PANN)来抽取用于作文评分的综合的表示,包括主题无关(pr…

2022年全国职业院校技能大赛(高职组)“软件测试”赛项竞赛任务书

2022年全国职业院校技能大赛(高职组) “软件测试”赛项竞赛任务书 2022年7月 一、竞赛时间、内容及成绩组成 (一)竞赛时间 本阶段竞赛时间共为8小时,参赛选手自行安排任务进度,休息、饮水、如厕等不设专…

C# WPF项目创建(基于VS 2019介绍)

1.打开VS,选择《创建新项目》 2.选择《WPF应用》,这里设计两个有.NET Framework框架和.NET core 框架,如图所示: 区别: .NET Framework 框架只能在windows下使用 .NET core 框架支持linux 下运行 3. 项目名称根据需…

ffplay常用参数总结

通过ffplay播放视频时,窗口的大小规则是如何呢? 答:如果拉取视频流的分辨率大于屏幕分辨率,那么ffplay播放时会将视频画面缩放至屏幕大小;如果拉取视频流的分辨率大小小于屏幕分辨率,那么ffplay播放时会按…

The 2021 CCPC Guangzhou A. Math Ball

A. Math Ball 题意 给定n个不同的小球&#xff0c;每种小球都有无穷多个&#xff0c;第i个小球有一个权值 c i c_{i} ci​&#xff0c;现在你要从中选出不超过W个小球&#xff0c;定义其选择的权值为 ∑ k 1 k 2 . . . . k n < W ∏ i 1 n k i c i \sum_{k_{1}k_{2}...…