layernorm笔记

news/2024/10/20 13:07:10/

文章目录

  • layer norm的解释
    • 二维
    • 三维
  • batchnorm和layernorm主要的区别
  • 为什么要在序列转录模型中使用layer norm?

layer norm的解释

二维

红色为batchnorm,蓝色为layer norm
batchnorm对每一个特征算均值和方差
layer norm对每一个批次算均值和方差
在这里插入图片描述

三维

红色为batchnorm,蓝色为layer norm
batchnorm对每个句子的第K个词做归一化
layer norm对每个句子的每个词做归一化
在这里插入图片描述

batchnorm和layernorm主要的区别

在算均值和方差的上面

batchnorm

在这里插入图片描述
理论算矩阵中阴影面积中的方差和均值,实际算整个矩阵中的方差和均值阴影部分的长度为小批量中的句子长度,用0补全

  • 均值和方差波动比较大

  • 预测时,如果预测样本的长度超过训练样本的最大长度,使用训练的均值和方差效果可能不是那么好
    layernorm
    在这里插入图片描述
    矩阵中阴影部分的面积算方差和均值
    每个样本(每个句子里面自己所有的词)自己算均值和方差,不需要存一个全局的均值和方差,因为是对每个样本做的norm。

为什么要在序列转录模型中使用layer norm?

在时序的样本中,每个样本的长度可能发生变化
源自李沐论文讲解


http://www.ppmy.cn/news/1538711.html

相关文章

微知-Bluefield DPU使用flint烧录固件报错MFE_NO_FLASH_DETECTED是什么?MFE是什么?

文章目录 背景一些报错场景MFE是什么?有哪些MFE 背景 在DPU的fw操作flint的时候,很多命令都会报这个错误:MFE_NO_FLASH_DETECTED,早期很疑惑并且猜测MFE是Mellanox Firmware Engine。实际并不是,具体还得走到mellanox…

机器学习【金融风险与风口评估及其应用】

机器学习【金融风险与风口评估及其应用】 一、机器学习在金融风险评估中的应用1.提升评估准确性2.实现自动化和智能化3.增强风险管理能力4.信用评估5.风险模型6.交易策略7.欺诈检测 二、机器学习在金融风口评估中的应用1.识别市场趋势2.评估创新潜力3.优化投资策略4. 自然语言处…

各类排序详解

前言 本篇博客将为大家介绍各类排序算法,大家知道,在我们生活中,排序其实是一件很重要的事,我们在网上购物,需要根据不同的需求进行排序,异或是我们在高考完报志愿时,需要看看院校的排名&#…

【C++】--内存管理

👾个人主页: 起名字真南 👻个人专栏:【数据结构初阶】 【C语言】 【C】 目录 1 C/C内存分布2 C语言中动态内存管理方式 :3 C内存管理方式3.1 new/delete操作内置类型3.2 new和delete操作自定义类型 4 operator new与operator delete4.1 opera…

java项目之基于vue的工厂车间管理系统的设计源码(springboot+mysql+vue)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的基于vue的工厂车间管理系统的设计。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 基于vu…

鸿蒙Swiper动态加载翻页数据(等同于安卓动态加载viewPager)

我这里是加载一个实体类列表 类似 List 的数据,那么首先写一个dataSource: export class MyDataSource implements IDataSource {private list: MyBean[] []constructor(list: MyBean[]) {this.list list}totalCount(): number {return this.list.len…

Java JVM(Java虚拟机)启动参数的设置

Java JVM(Java虚拟机)启动参数的设置对于优化Java应用程序的性能至关重要。这些参数可以分为标准参数、非标准参数(也称为-X参数)和非Stable参数(以-XX为前缀)。以下是一些常用的JVM启动参数设置&#xff1…

element-plus 自定义列表(非table)实现分页功能

自定义列表实现分页功能增&#xff0c;删&#xff0c;改功能点击图片放大功能 template模块代码如下&#xff1a; <template> <div class"booth_manager"> <el-affix :offset"0"> <div class"sticky_top"> <div clas…