深入理解深度学习——Transformer:整合编码器(Encoder)和解码器Decoder)

news/2024/12/5 5:20:32/

分类目录:《深入理解深度学习》总目录

相关文章:
·注意力机制(Attention Mechanism):基础知识
·注意力机制(Attention Mechanism):注意力汇聚与Nadaraya-Watson核回归
·注意力机制(Attention Mechanism):注意力评分函数(Attention Scoring Function)
·注意力机制(Attention Mechanism):Bahdanau注意力
·注意力机制(Attention Mechanism):自注意力(Self-attention)
·注意力机制(Attention Mechanism):多头注意力(Multi-head Attention)
· 注意力机制(Attention Mechanism):带掩码的多头注意力(Masked Multi-head Attention)
·注意力机制(Attention Mechanism):位置编码(Positional Encoding)
· Transformer:编码器(Encoder)部分
· Transformer:解码器(Decoder)的多头注意力层(Multi-headAttention)
· Transformer:解码器(Decoder)部分


在文章《深入理解深度学习——Transformer:编码器(Encoder)部分》、《深入理解深度学习——Transformer:解码器(Decoder)的多头注意力层(Multi-headAttention)》和《深入理解深度学习——Transformer:解码器(Decoder)部分》中我们了解了Transformer架构的各个细节,现在我们把Transformer的各个结构组合起来,如下图所示:
整合Transformer各个组件
在上图中, N × N\times N×表示可以堆叠 N N N个编码器和解码器。我们可以看到,一旦输入句子(原句),编码器就会学习其特征并将特征发送给解码器,而解码器又会生成输出句(目标句)。

我们可以通过最小化损失函数来训练Transformer网络。我们已经知道,解码器预测的是词汇的概率分布,并选择概率最高的词作为输出。所以,我们需要让预测的概率分布和实际的概率分布之间的差异最小化。要做到这一点,可以将损失函数定义为交叉熵损失函数。我们通过最小化损失函数来训练网络,并使用Adam算法来优化训练过程。另外需要注意,为了防止过拟合,我们可以将Dropout方法应用于每个子层的输出以及嵌入和位置编码的总和。

参考文献:
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.


http://www.ppmy.cn/news/407083.html

相关文章

37 # commonjs 规范流程梳理

require 源码大致过程 mod.require 会默认调用 require 语法Module.prototype.require 模块的原型上有 require 方法Module._load 调用模块的加载方法,最终返回的是 module.exportsModule._resolveFilename 解析文件名,将文件名变成绝对路径&#xff0c…

广告数仓:数仓搭建(二)

系列文章目录 广告数仓:采集通道创建 广告数仓:数仓搭建 广告数仓:数仓搭建(二) 文章目录 系列文章目录前言DWD层创建1.建表广告事件事实表 2.数据装载初步解析日志解析IP和UA标注无效流量编写脚本 总结 前言 这次我们完成数仓剩下的内容 D…

2345文件粉碎,文件强力删除工具无捆绑纯净提取版

前言 对比起其余文件粉碎工具来说,这款速度更快,成功率也更高,还是不错的 这里提供无捆绑并且纯净的2345文件粉碎工具,除去AvShellExt64.dll和AvShellExt.dll修改过几处十六进制,其余都是软件原版文件,可…

Unlocker - 文件粉碎工具

Unlocker 文件粉碎工具 上传安装包

粉碎文件BAT

粉碎文件BAT DEL /F /A /Q \\?\%1 RD /S /Q \\?\%1 看到很多粉碎文件的软件,要么重启后才能粉碎成功,要么就不能粉碎~有的粉碎文件软件甚至要你付钱。。。。其实,只要编36字节的代码就可以粉碎windows系统里的任何文件!而且无用…

怎样用计算机粉碎文件夹,电脑粉碎文件用什么软件好,怎么彻底粉碎电脑文件...

想要把在电脑中的一些垃圾或是多余的软件删除时,经常会遇到这样的一种情况,就是有一些文件是无法彻底删除掉的,这些文件要么是显示系统正在运行中,要么就是因病毒等等删除起来比较费劲,在这里我将教大家一种比较简单的…

手机和电脑数据恢复,粉碎删除,电脑恢复文件教程

1. 只删除, 没有清空回收站. 这咱情况比较简单, 有一点电脑知识的朋友都知道, 文件还是存在的, 只不过躺在回收站而已. 只要到回收站把文件找出来拖回或还原就行了. 2. 删除文件后还清空了回收站 很多朋友碰到的就是这种情况,也是我们主要这中恢复误删文件的恢复. 清…

Promise、 Asyncawait 、setTimeOut执行顺序及区别

Promise、 Async/await 、setTimeOut执行顺序及区别 1、阐述 Promise是一种异步编程的解决方案,用于处理异步操作并返回结果或错误。Promise对象有三种状态:pending(进行中)、fulfilled(已成功)和rejected…