(深度学习记录)第TR3周:Transformer 算法详解

ops/2024/10/18 22:30:23/
  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊 | 接辅导、项目定制

·文本的输入处理中,transformer会将输入文本序列的每个词转化为一个词向量,我们通常会选择一个合适的长度作为输入文本序列的最大长度如果一个句子达不到这个长度就用0填充,超出就做截断。

·self- attention机制可以让模型不仅仅关注当前位置的词,还关注句子中其他位置相关的词。

·transformer解码器预测了组概率,就可以将这组概率与正确的概率做对比,然后用反向传播来调整模型的权重,使得输出的概率分布更加接近整数输出。

目标的概率分布:

经过长期的训练后,希望输出的概率分布如下图所示:

​​​​​​​ 


http://www.ppmy.cn/ops/47123.html

相关文章

windows上进行git初始化时报错:fatal: unknown write failure on standard output

一、报错描述 1、git init命令一般是在命令行,切换到项目的根目录后执行 2、如果是windows的系统,我们粘贴路径时,需要进行转义命令行才能识别, 也就是像我下面写的 D:\\Users\\...3、报错信息进行解读 一般情况下,…

时序数据库介绍及应用场景,C#实例

一,时序数据库介绍 时序数据库(Time Series Database,TSDB)是一种专门用于存储、处理和查询时间序列数据的数据库系统。以下是关于时序数据库的详细解释: 定义 时序数据库是一种优化用于摄取、处理和存储时间戳数据的…

什么是序列化?Java如何实现序列化?

一、序列化的定义 序列化是将对象的状态信息转换为可以存储或传输的形式的过程。在Java中,序列化是将一个对象转换成一个字节序列,以便可以将其写入到磁盘、通过网络发送到另一个运行Java的虚拟机,或者将其永久地保存在数据库中。反序列化则…

51种企业应用架构模式详解

01 什么是企业应用 我的职业生涯专注于企业应用,因此,这里所谈及的模式也都是关于企业应用的。(企业应用还有一些其他的说法,如“信息系统”或更早期的“数据处理”。)那么,这里的“企业应用”具体指的是什…

简单小游戏制作

控制台基础设置 //隐藏光标 Console.CursorVisible false; //通过两个变量来存储舞台的大小 int w 50; int h 30; //设置舞台(控制台)的大小 Console.SetWindowSize(w, h); Console.SetBufferSize(w, h);多个场景 int nowSceneID 1; while (true) …

R语言绘图 --- 饼状图(Biorplot 开发日志 --- 2)

「写在前面」 在科研数据分析中我们会重复地绘制一些图形,如果代码管理不当经常就会忘记之前绘图的代码。于是我计划开发一个 R 包(Biorplot),用来管理自己 R 语言绘图的代码。本系列文章用于记录 Biorplot 包开发日志。 相关链接…

(函数)判断字符串元音字母(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>//声明判断元音函数&#xff1b; void vowel(char a[100], char b[100]);int main() {//初始化变量值&#xff1b;char a[100] { 0 };char b[100] { 0 };//获取…

STM32G030C8T6:EEPROM读写实验(I2C通信)--M24C64

本专栏记录STM32开发各个功能的详细过程&#xff0c;方便自己后续查看&#xff0c;当然也供正在入门STM32单片机的兄弟们参考&#xff1b; 本小节的目标是&#xff0c;系统主频64 MHZ,采用高速外部晶振&#xff0c;实现PB11,PB10 引脚模拟I2C 时序&#xff0c;对M24C08 的EEPRO…