文章目录 预备工作背景模型架构Encoder部分和Decoder部分EncoderDecoderAttention模型中Attention的应用基于位置的前馈网络 Embeddings and Softmax位置编码完整模型 训练批处理和掩码Training Loop训练数据和批处理硬件和训练时间Optimizer正则化标签平滑 实例<