1 认识Transformer
定义:Transformer是基于Seq2Seq架构的模型,可以完成NLP领域研究的典型任务,如机器翻译,文本生成等,同时又可以构建预训练语言模型,用于不同任务的迁移学习。
//本篇主要介绍通过transformer架构实现从一种语言文本到另一种语言文本的翻译工作。使用NLP领域的常见命名规则。编码层将被称作文本嵌入层、编码层产生的张量成为词嵌入张量,编码层的最后一维将称作词向量。
总体架构图:主要可分为四个部分,输入部分、编码部分、解码部分、输出部分。如图1所示。
transformer整体架构图">
以文本翻译为例,Transformer架构可理解为,如图2所示:
1.1 输入部分实现
输入部分由两部分组成:
源语言文本,进入源文本嵌入层及位置编码器
目标语言文本,进入目标文本嵌入层及位置编码器
首先:获取输入句子的每一个单词的表示向量 Xÿ