动手学深度学习69 BERT预训练

ops/2024/11/14 14:24:34/

1. BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3亿参数 30亿个词

在输入和loss上有创新
两个句子拼起来放到encoder–句子对
cls-class分类
sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量
位置编码不用sin cos, 让网络自己学习
在这里插入图片描述

bert–通用任务
encoder 是双向的,两个方向的信息都可以看到
预测mask是谁。
改动:让模型在做微调的时候不要看到mask就做预测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. QA

在这里插入图片描述
1 对每个词每个token 学习一个固定长度的向量
2 bert 用一个词段做向量表示
3 15% 中的10%
4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系
6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。
7 gpt等 预训练任务本身都会有改进
8 bert之后的论文
在这里插入图片描述


http://www.ppmy.cn/ops/133587.html

相关文章

用Java实现samza转换成flink

将Apache Samza作业迁移到Apache Flink作业是一个复杂的任务,因为这两个流处理框架有不同的API和架构。然而,我们可以将Samza作业的核心逻辑迁移到Flink,并尽量保持功能一致。 假设我们有一个简单的Samza作业,它从Kafka读取数据&…

计算机网络之表示层

一、定义与概述 在计算机网络中,OSI(Open Systems Interconnection)模型是一种广泛接受的分层模型,用于描述网络通信的各个方面。这个模型将网络通信划分为七个不同的层次,每一层都负责特定的任务,以确保数…

Cesium中3Dtiles模型的信息读取和高亮显示单独瓦片

一、信息读取 参考官方文档:Csium3DTileset - Cesium Documentation 加载模型 var tileset viewer.scene.primitives.add(new Cesium.Cesium3DTileset({url: tileset.json//加载3D Tiles}));在使用过程中可以通过在控制台输出对象后看一下对象的类型然后上官方文…

英语中go do sth和come do sth的区别

1. "Come do something" 语法结构 结构:主语 come 动词原形 其他成分。用法:表示某人来到说话者的位置或某个地方,然后做某事。 例句 Come play with us.(过来和我们一起玩。)Come help me with this…

github高分项目 WGCLOUD - 运维实时管理工具

GitHub - tianshiyeben/wgcloud: Linux运维监控工具,支持系统硬件信息,内存,CPU,温度,磁盘空间及IO,硬盘smart,GPU,防火墙,网络流量速率等监控,服务接口监测&…

Prettier - Code formatter插件使用(前端美化插件)

一,安装 vscode直接搜索 安装完毕后 二,配置 Prettier: 安装完插件后,打开 VSCode 的设置(快捷键是 Ctrl ,)。在搜索框中输入 Format On Save,找到并勾选“Editor: Format On Save”选项&am…

11. 盛最多水的容器

目录 题目过程 题目 过程 class Solution { public:int maxArea(vector<int>& height) {int l0,rheight.size()-1;int v0;//用于存储容器最大值while(l<r){if(height[l]<height[r]){vmax(v,height[l]*(r-l));}else{vmax(v,height[r]*(r-l));}}return v;} };用…

在Java中使用ModelMapper简化Shapefile属性转JavaBean实战

目录 前言 一、原始的处理办法 1、使用Set方法来转换 2、使用构造方法转换 二、基于ModelMapper的动态转换 1、ModelMapper简介 2、集成到项目中 3、Shapefile属性读取 三、总结 前言 在现代软件开发中&#xff0c;尤其是在多层架构中&#xff0c;经常需要将数据从一个…