Transformer模型框架

embedded/2024/9/24 10:15:58/

Transformer 模型框架源自2017年论文 《Attention is All You Need》

Self-Attention

1、Transformer 结构

Transformer 整体框架由 Encoder 和 Decoder 组成,本质上是 Self-Attention 模型的叠加。

在这里插入图片描述

2、Encoder

Encoder 的主要作用是让机器更清楚的了解到句子中词的特征,或词与词的关系(图就表现在像素上)。Encoder 模型中通过输入词向量 ,输出新的词向量。

在这里插入图片描述

POSITIONAL ENCODING:让词向量蕴含词的相对位置信息。
残差结构的作用:避免出现梯度消失的情况。
Layer Norm 的作用:为了保证数据特征分布的稳定性,并且可以加速模型的收敛。

3、Decoder

Decoder 的主要作用根据 Encoder 了解到词的特征,预测新的词。

在这里插入图片描述

Decoder 中的 Self-Attention 采用 Masked Self-Attention ,在翻译上体现在已经翻译的结果将会对下一个要翻译的词都会有一定的贡献。

4、Transformer 工作流程

以翻译 “我是学生” 将德语翻译为英语为例:

在这里插入图片描述

题外话:第一性原理、本质


http://www.ppmy.cn/embedded/98361.html

相关文章

工 厂设计模式

简单工厂模式 基本介绍 1) 简单工厂模式是属于创建型模式,是工厂模式的一种。 简单工厂模式是由一个工厂对象决定创建出哪一 种产品类 的实例。简单工厂模式是工厂模式家族中最简单实用的模式 2) 简单工厂模式:定义了一个创建对象的类,由这个类来 封装实例化对象的行为 (代…

从React服务器组件(RSC)反思Jakarta Faces技术

从React服务器组件(RSC)反思Jakarta Faces技术 2024.8.20版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 1 引言 React 服务器组件(React Server Components,RSC)标志着 React …

MySQL中的distinct和group by哪个效率更高?

前言 大家好,我是月夜枫~~ 一、distinct和group by的区别 1.1.作用方式和应用场景 ‌group by和‌distinct的主要区别在于它们的作用方式和应用场景。 group by用于对数据进行分组和聚合操作,通常与聚合函数(如COUNT、SUM、AVG等&#xf…

KubeSphere 社区双周报| 2024.08.02-08.15

KubeSphere 社区双周报主要整理展示新增的贡献者名单和证书、新增的讲师证书以及两周内提交过 commit 的贡献者,并对近期重要的 PR 进行解析,同时还包含了线上/线下活动和布道推广等一系列社区动态。 本次双周报涵盖时间为:2024.08.02-08.15…

机器学习笔记六-朴素贝叶斯

朴素贝叶斯(Naive Bayes) 是一种基于贝叶斯定理的简单而强大的分类算法,特别适用于文本分类等高维数据集。它被称为“朴素”,因为它假设特征之间是相互独立的,这在现实中可能不完全成立,但这种假设在许多实…

【IDEA】idea配置服务器没有tomcat

IntelliJ IDEA 本身并不包含 Tomcat 服务器。 详细解释: IntelliJ IDEA 是一个集成开发环境 (IDE),为软件开发提供各种工具和功能。它专注于代码编辑、调试、代码重构和版本控制等任务。Tomcat 是一个 Java Servlet 容器和 Web 服务器,用于…

SQL 二阶注入 (injection 第二十四关)

简介 SQL注入(SQL Injection)是一种常见的网络攻击方式,通过向SQL查询中插入恶意的SQL代码,攻击者可以操控数据库,SQL注入是一种代码注入攻击,其中攻击者将恶意的SQL代码插入到应用程序的输入字段中&am…

达梦数据库表结构导出到 Excel 教程

在数据库开发和维护中,导出数据表结构是常见的需求之一,特别是在进行数据库文档化、系统迁移、版本控制等工作时。通过导出表结构到 Excel,我们可以方便地查看、分析和分享表结构信息。在本文中,我将结合达梦数据库的相关 SQL 查询…