动手学深度学习69 BERT预训练

news/2024/11/19 22:40:45/

1. BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3亿参数 30亿个词

在输入和loss上有创新
两个句子拼起来放到encoder–句子对
cls-class分类
sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量
位置编码不用sin cos, 让网络自己学习
在这里插入图片描述

bert–通用任务
encoder 是双向的,两个方向的信息都可以看到
预测mask是谁。
改动:让模型在做微调的时候不要看到mask就做预测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. QA

在这里插入图片描述
1 对每个词每个token 学习一个固定长度的向量
2 bert 用一个词段做向量表示
3 15% 中的10%
4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系
6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。
7 gpt等 预训练任务本身都会有改进
8 bert之后的论文
在这里插入图片描述


http://www.ppmy.cn/news/1548342.html

相关文章

前端项目接入单元测试手册

一、单元测试 Vue.js项目中的单元测试是一种软件测试方法,通过对最小的、可测试的代码单元进行检查和验证来保证代码质量。确保每个组件作为独立单元正确执行其预定功能。当代码库随着时间发展增长时,单元测试成为识别错误和避免潜在问题的关键手段。此…

Opengl光照测试

代码 #include "Model.h" #include "shader_m.h" #include "imgui.h" #include "imgui_impl_glfw.h" #include "imgui_impl_opengl3.h" //以上是放在同目录的头文件#include <glad/glad.h> #include <GLFW/glfw3.…

Java项目实战II基于Java+Spring Boot+MySQL的共享汽车管理系统(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在共享经济…

11.14 机器学习-朴素贝叶斯+决策树算法

# 贝叶斯底层逻辑 一个数据有可能是几种 结果 选一个概率最高的结果赋给它 # 朴素贝叶斯 假设各个特征之间全部独立 P(A*B*C*D*E)P(A)*P(B)*P(C)*P(D)*P(E) # A是特征向量 B是结果 # P(B|A)P(A|B)*P(B)/P(A) # P(A|X1,X2,X3,X4,X5)P(X1,X2,X3,X4,X5|A)*P(A)/P(X1,X2,X3,X4,X5…

ue5入门教程:EventGraph

EventGraph&#xff08;事件图表&#xff09;是Unreal Engine 5&#xff08;UE5&#xff09;中蓝图系统的一个重要组成部分&#xff0c;它用于展示不同节点和它们之间的事件流。以下是关于UE5中EventGraph的详细教程&#xff1a; 一、EventGraph基础概念 事件&#xff08;Eve…

leetcode_二叉树最大深度

对二叉树的理解 对递归调用的理解 对内存分配的理解 基础数据结构&#xff08;C版本&#xff09; - 飞书云文档 每次函数的调用 都会进行一次新的栈内存分配 所以lmax和rmax的值不会混在一起 /*** Definition for a binary tree node.* struct TreeNode {* int val;* …

ubuntu 22.04 shell

原因&#xff1a;在ubuntu&#xff08;18.04&#xff09;默认是指向bin/dash解释器的&#xff0c;dash是小巧的shell&#xff08;阉割版的bash&#xff09;&#xff0c;其功能远没有bash强大和丰富。上述问题就是dash不支持let和i运算等功能造成的。 ls -la /bin/sh lrwxrwxrw…

【青牛科技】D54123 漏电保护电路介绍及应用

1、具体应用&#xff1a; 相关产品介绍&#xff1a; D54123 应用框图&#xff1a; D54123 方案介绍&#xff1a; 当正常电源电流流过时&#xff0c;电容滤波至少保证 VS端电压为12V R1、R2可根据所用电网交流电压值来选择 C4 应大于 1μF&#xff0c;C2小于 1μF 必须接入 RP&…