深入理解深度学习——Transformer：整合编码器（Encoder）和解码器Decoder）

news/2024/12/5 5:20:32/

相关文章：
·注意力机制（Attention Mechanism）：基础知识
·注意力机制（Attention Mechanism）：注意力汇聚与Nadaraya-Watson核回归
·注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）
·注意力机制（Attention Mechanism）：Bahdanau注意力
·注意力机制（Attention Mechanism）：自注意力（Self-attention）
·注意力机制（Attention Mechanism）：多头注意力（Multi-head Attention）
· 注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）
·注意力机制（Attention Mechanism）：位置编码（Positional Encoding）
· Transformer：编码器（Encoder）部分
· Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）
· Transformer：解码器（Decoder）部分

在文章《深入理解深度学习——Transformer：编码器（Encoder）部分》、《深入理解深度学习——Transformer：解码器（Decoder）的多头注意力层（Multi-headAttention）》和《深入理解深度学习——Transformer：解码器（Decoder）部分》中我们了解了Transformer架构的各个细节，现在我们把Transformer的各个结构组合起来，如下图所示：
整合Transformer各个组件
在上图中， $N\times$ 表示可以堆叠 $N$ 个编码器和解码器。我们可以看到，一旦输入句子（原句），编码器就会学习其特征并将特征发送给解码器，而解码器又会生成输出句（目标句）。

我们可以通过最小化损失函数来训练Transformer网络。我们已经知道，解码器预测的是词汇的概率分布，并选择概率最高的词作为输出。所以，我们需要让预测的概率分布和实际的概率分布之间的差异最小化。要做到这一点，可以将损失函数定义为交叉熵损失函数。我们通过最小化损失函数来训练网络，并使用Adam算法来优化训练过程。另外需要注意，为了防止过拟合，我们可以将Dropout方法应用于每个子层的输出以及嵌入和位置编码的总和。

参考文献：
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[4] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[5] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[6] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[7] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

深入理解深度学习——Transformer：整合编码器（Encoder）和解码器Decoder）

相关文章

37 # commonjs 规范流程梳理

广告数仓：数仓搭建(二)

2345文件粉碎，文件强力删除工具无捆绑纯净提取版

Unlocker - 文件粉碎工具

粉碎文件BAT

怎样用计算机粉碎文件夹,电脑粉碎文件用什么软件好,怎么彻底粉碎电脑文件...

手机和电脑数据恢复，粉碎删除，电脑恢复文件教程

Promise、 Asyncawait 、setTimeOut执行顺序及区别