Bert框架详解(下)

devtools/2024/11/14 6:20:06/

一、Bert模型网络结构

1、Add与Normalize

Add:将前面的数据传到后面层,残差网络同理。

Normalize :归一化,与batch normalize同理。

2、outputs(shifted right)

outputs(shifted right):指在解码器处理过程中,将之前的输出序列向右移动一位,并在最左侧添加一个新的起始符(如“<sos>”或目标序列开始的特殊token)作为新的输入。这样做的目的是让解码器在生成下一个词时,能够考虑到已经生成的词序列。 作用:通过“shifted right”操作,解码器能够在生成每个词时,都基于之前已经生成的词序列进行推断。这样,解码器就能够逐步构建出完整的输出序列。 示例说明:假设翻译任务,输入是“我爱中国”,目标输出是“I love China”。在解码器的处理过程中: 在第一个步,解码器接收一个起始符(如“<sos>”)作为输入,并预测输出序列的第一个词“I”。 在第二个步,解码器将之前的输出“I”和起始符一起作为新的输入(即“<sos> I”),并预测下一个词“love”。 以此类推,直到解码器生成完整的输出序列“I love China”。

 

 3、训练数据

方法一:随机的将句子中的15%的词汇进行mask。让模型去预测mask的词汇。 注:一般选择字进行mask,词的可能性太多,例如今天,明天,后天,上午,下午,没有,再次等等。

方法二:预测两个句子是否应该连在一起。

CLS:分类标记(Classification Token)用于表示输入序列的开始。在输入序列中,CLS应放置在句子的开头。在训练过程中,CLS也当作一个词参与训练,得到对应与其他词汇关系的词向量。 SEP:分隔符标记(Separator Token)用于分隔两个句子或表示单个句子的结束。在处理多个句子时SEP应放置在每个句子的结尾。在训练过程中,SEP也当作一个词参与训练,得到对应与其他词汇关系的词向量。

 


http://www.ppmy.cn/devtools/133416.html

相关文章

C++之SET容器

set 是 C STL (Standard Template Library) 中的一个关联容器。它存储唯一的元素&#xff0c;并且这些元素是自动排序的&#xff08;默认情况下为升序&#xff09;。set 内部通常实现为红黑树&#xff0c;这是一种自平衡二叉搜索树。 主要特点 唯一性&#xff1a;set 容器不允…

Intern大模型训练营(四):使用Hugging Face下载模型

1. Huggingface下载模型 首先在Huggingface平台注册账号。 然后进入https://github.com/codespaces&#xff0c;选择使用jupyter_notebook配置&#xff0c;输入以下命令流安装香瓜依赖。 # 安装transformers pip install transformers4.38 pip install sentencepiece0.1.99 …

图像处理椒盐噪声

椒盐噪声&#xff0c;也称为脉冲噪声&#xff0c;是图像中经常见到的一种噪声。它是一种随机出现的白点或者黑点&#xff0c;可能是亮的区域有黑色像素或是在暗的区域有白色像素&#xff08;或是两者皆有&#xff09;。这些白点和黑点会在图像中随机分布&#xff0c;导致图像中…

Python与Excel交互:pandas库安装及基本用法

在之前的文章中&#xff0c;我们探讨了Python处理Excel文件的基本概念&#xff0c;如工作簿、工作表以及单元格等。现在我们将转向具体的工具介绍——pandas库&#xff0c;它是Python中最常用的数据分析库之一&#xff0c;能够非常便捷地读取、处理和写入Excel文件。 安装pand…

Nano Energy 水下机器人近场感知与速度评估由深度学习辅助的仿海豹胡须传感器实现

摘要&#xff1a;本研究设计了一种仿生水下摩擦电胡须传感器&#xff0c;可被动感知多种水动力流场&#xff0c;有望成为水下航行器在本地导航任务中的整合工具。 北京大学与大连海事大学研究团队共同设计了一种深度学习辅助的仿生水下摩擦电胡须传感器&#xff08;underwater…

【计算机图形学】3DIT的训练数据总结

3D Implicit Transporter用的是PartNet-Mobility数据集&#xff0c;我想用Shape2Motion数据集&#xff0c;但是3DIT是所有类别的数据扔一起训练的&#xff0c;为了避免到时候弄3DIT数据忘记了&#xff0c;我在这里记录一些点云数据训练的东西。方便之后用3DIT来训练BaseLine 1…

华为OD机试 - 最大社交距离 - TreeSet(Python/JS/C/C++ 2024 C卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

ssm087会议管理系统ssm(论文+源码)_kaic

毕 业 设 计&#xff08;论 文&#xff09; 题目&#xff1a;会议管理系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术&#xff0c;让传统数据信息的管理升级为软件存储&#xff0c;归纳&#xff0c;集中处理数据信息的管理方式。本会议管理系统就是在这…