动手学深度学习69 BERT预训练

server/2024/11/19 0:31:23/

1. BERT

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3亿参数 30亿个词

在输入和loss上有创新
两个句子拼起来放到encoder–句子对
cls-class分类
sep-seperate 分隔符 分开每个句子 告诉是哪个句子 两个句子给不同的向量
位置编码不用sin cos, 让网络自己学习
在这里插入图片描述

bert–通用任务
encoder 是双向的,两个方向的信息都可以看到
预测mask是谁。
改动:让模型在做微调的时候不要看到mask就做预测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4. QA

在这里插入图片描述
1 对每个词每个token 学习一个固定长度的向量
2 bert 用一个词段做向量表示
3 15% 中的10%
4 大量用在cv上,图片可以扣很多小块出来,是有空间关系的,模拟语言模型的关系
6 用小一点的bert模型;多用几个卡;每个gpu存一部分的模型。
7 gpt等 预训练任务本身都会有改进
8 bert之后的论文
在这里插入图片描述


http://www.ppmy.cn/server/143028.html

相关文章

基于Python的仓库管理系统设计与实现

背景: 基于Python的仓库管理系统功能介绍 本仓库管理系统采用Python语言开发,利用Django框架和MySQL数据库,实现了高效、便捷的仓库管理功能。 用户管理: 支持员工和管理员角色的管理。 用户注册、登录和权限分配功能&#x…

html文本元素

在HTML中&#xff0c;文本元素指的是用于展示文本内容的元素。以下是一些常用的HTML文本元素&#xff1a; <h1>至<h6>&#xff1a;标题元素&#xff0c;<h1>表示最高级别的标题&#xff0c;<h6>表示最低级别的标题。<p>&#xff1a;段落元素&am…

蓝桥杯每日真题 - 第13天

题目&#xff1a;&#xff08;删边问题&#xff09; 题目描述&#xff08;14届 C&C B组F题&#xff09; 解题思路&#xff1a; 图的构建&#xff1a;使用邻接链表表示图&#xff0c;边的起点和终点分别存储在数组中&#xff0c;以支持高效的遍历。 Tarjan算法&#xff1a…

Nature Communications 基于触觉手套的深度学习驱动视触觉动态重建方案

在人形机器人操作领域&#xff0c;有一个极具价值的问题&#xff1a;鉴于操作数据在人形操作技能学习中的重要性&#xff0c;如何有效地从现实世界中获取操作数据的完整状态&#xff1f;如果可以&#xff0c;那考虑到人类庞大规模的人口和进行复杂操作的简单直观性与可扩展性&a…

构建SSH僵尸网络

import argparse import paramiko# 定义一个名为Client的类&#xff0c;用于表示SSH客户端相关操作 class Client:# 类的初始化方法&#xff0c;接收主机地址、用户名和密码作为参数def __init__(self, host, user, password):self.host hostself.user userself.password pa…

kafka消费数据太慢了,给优化下

原代码 public class KafkaConsumerDemo {public static void main(String[] args) {int numConsumers 5; // 增加消费者的数量for (int i 0; i < numConsumers; i) {new Thread(new KafkaConsumerThread()).start();}}static class KafkaConsumerThread implements Runn…

Uni-APP+Vue3+鸿蒙 开发菜鸟流程

参考文档 文档中心 运行和发行 | uni-app官网 AppGallery Connect DCloud开发者中心 环境要求 Vue3jdk 17 Java Downloads | Oracle 中国 【鸿蒙开发工具内置jdk17&#xff0c;本地不使用17会报jdk版本不一致问题】 开发工具 HBuilderDevEco Studio【目前只下载这一个就…

Chrome 浏览器开启打印模式

打开开发者工具ctrl shift p输入print 找到 Emulate CSS print media type