BERT 大模型

BERT 大模型

news/2025/2/20 14:07:58/

aidu_pl">

BERT 大模型

Embedding
Transformer
预微调模块
预训练任务

BERT 特点 :

优点 : 在语言理解相关任务中表现很好
缺点 : 更适合 NLU 任务，不适合 NLG 任务

BERT 架构：双向编码模型 :

Embedding 模块
Transformer 模块
预微调模块

Embedding

Embedding 组成 :

Token Embeddings：词嵌入张量，第一个单词是CLS标志，用于分类任务
Segment Embeddings：句子分段嵌入张量，用于两个句子为输入的预训练任务
Position Embeddings：位置编码张量
输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
预训练任务集中在训练 Transformer 中

预微调模块

根据任务不同需求调整最后一层
对于sequence-level的分类任务，取第一个[CLS]token的final hidden state，加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM（带 mask 的语言模型训练）

输入句子中随机抽取 15% 的 token 作为训练对象
80% 概率用 MASK 标记替换 token ，10% 概率用随机单词替换 token，10% 概率保持 token 不变

NextSentencePrediction（下一句话预测任务）

输入句子对 (A , B) ，预测句子B是否是句子A的真实下一句
50% 的 B 是原始文本中真实跟随A的下一句（正样本），50% 的 B 是随机抽取的一句话（负样本）

http://www.ppmy.cn/news/1573321.html

相关文章

Ubuntu部署deepseek（离线版）

Ubuntu部署deepseek（离线版）

由于实验室的服务器无法连外网，只能离线手动安装了！！！离线下载ollama-linux-amd64.tgz 网址：https://ollama.com/download/ollama-linux-amd64.tgz 第一步：解压安装包切换到目标文件夹 cd /home/zhangh/Ollama 解压安装包 tar -xzf ollama-linux-amd64.tgz -C /usr/…

阅读更多...

Linux-IO编程

Linux-IO编程

Linux操作组成一、文件在 Linux 中，有一句经典的话叫做：一切皆文件。这句话是站在内核的角度说的，因为在内核中所有的设备 (除了网络接口) 都一律使用 Linux 独有的虚拟文件系统 (VFS) 来管理。这样做的最终目的，是将各种不…

阅读更多...

LabVIEW 中dde.llbDDE 通信功能

LabVIEW 中dde.llbDDE 通信功能

在 LabVIEW 功能体系中，位于 C:\Program Files (x86)\National Instruments\LabVIEW 2019\vi.lib\Platform\dde.llb 的 dde.llb 库占据着重要的地位。作为一个与动态数据交换（DDE）紧密相关的库文件，它为 LabVIEW 用户提供了与其他…

阅读更多...

摄像头畸变矫正

摄像头畸变矫正

简单介绍所谓畸变其实就是由摄像头引起的图片失真, 一般在广角摄像头表现明显, 原本平整的桌面通过镜头看像个球面, 直观的解释直线被拍成了曲线, 这让我想起来了一个表情包. 去畸变的办法首先我们需要一个标准棋盘(印有特定的标定图案), 如图: 把它摊平放在桌子上, 然后用…

阅读更多...

MySQL 中各种日志简介

MySQL 中各种日志简介

MySQL 日志慢查询日志(Slow query log) 慢查询⽇志由执⾏时间超过系统变量 long_query_time 指定的秒数的SQL语句组成，并且检查的⾏数⼤于系统变量 min_examined_row_limit 指定值。被记录的慢查询需要进⾏优化， 可以使⽤mysqldumpslow客⼾端程序对慢…

阅读更多...

Docker-Client for Java: 在Kotlin与Groovy中的Docker操控利器

Docker-Client for Java: 在Kotlin与Groovy中的Docker操控利器

Docker-Client for Java: 在Kotlin与Groovy中的Docker操控利器 docker-client A Docker client for Java written in Kotlin and Groovy 项目地址: https://gitcode.com/gh_mirrors/doc/docker-client 项目基础介绍及编程语言 Docker-Client 是一个专为Java虚拟机&…

阅读更多...

自动化测试平台ATECLOUD全面解析

自动化测试平台ATECLOUD全面解析

ATECLOUD 平台是什么 ATECLOUD 智能云测试平台是由纳米软件自主研发的数智化文字编程软件平台，在电子测试领域表现卓越。该平台可用于上位机软件开发，具有一拖即用的便捷性，让不懂编程的人也能快速上手。与传统的代码编程和 LabVIEW 软件的…

阅读更多...

广义表学习笔记

广义表学习笔记

1. 广义表的定义广义表（Generalized List）是一种递归的数据结构，可以为空表或包含原子和子表的表。广义表中的元素可以是原子（不可再分的基本元素）也可以是广义表，这使得广义表能够表示具有复杂嵌套结构的…

阅读更多...

最新文章