BERT 大模型

news/2025/2/20 14:07:58/
aidu_pl">

BERT 大模型

  • Embedding
  • Transformer
  • 预微调模块
  • 预训练任务

BERT 特点 :

  • 优点 : 在语言理解相关任务中表现很好
  • 缺点 : 更适合 NLU 任务,不适合 NLG 任务

BERT 架构:双向编码模型 :

  • Embedding 模块
  • Transformer 模块
  • 预微调模块

Embedding

Embedding 组成 :

  • Token Embeddings:词嵌入张量,第一个单词是CLS标志,用于分类任务
  • Segment Embeddings:句子分段嵌入张量,用于两个句子为输入的预训练任务
  • Position Embeddings:位置编码张量
  • 输出张量 : 这3个张量的直接加和结果

Transformer

Transformer :

  • 只用 Transformer 的 Encoder 部分 , 舍弃 Decoder
  • 预训练任务集中在训练 Transformer 中

预微调模块

  • 根据任务不同需求调整最后一层
  • 对于sequence-level的分类任务,取第一个[CLS]token的final hidden state,加一层全连接层后进行softmax预测标签

预训练任务

MaskedLM(带 mask 的语言模型训练)

  • 输入句子中随机抽取 15% 的 token 作为训练对象
  • 80% 概率用 MASK 标记替换 token ,10% 概率用随机单词替换 token,10% 概率保持 token 不变

NextSentencePrediction(下一句话预测任务)

  • 输入句子对 (A , B) ,预测句子B是否是句子A的真实下一句
  • 50% 的 B 是原始文本中真实跟随A的下一句(正样本),50% 的 B 是随机抽取的一句话(负样本)


http://www.ppmy.cn/news/1573321.html

相关文章

Ubuntu部署deepseek(离线版)

由于实验室的服务器无法连外网,只能离线手动安装了!!! 离线下载ollama-linux-amd64.tgz 网址:https://ollama.com/download/ollama-linux-amd64.tgz 第一步:解压安装包 切换到目标文件夹 cd /home/zhangh/Ollama 解压安装包 tar -xzf ollama-linux-amd64.tgz -C /usr/…

Linux-IO编程

Linux操作组成 一、文件 在 Linux 中,有一句经典的话叫做:一切皆文件。这句话是站在内核的角度说的,因为 在内核中所有的设备 (除了网络接口) 都一律使用 Linux 独有的虚拟文件系统 (VFS) 来管 理。这样做的最终目的,是将各种不…

LabVIEW 中dde.llbDDE 通信功能

在 LabVIEW 功能体系中,位于 C:\Program Files (x86)\National Instruments\LabVIEW 2019\vi.lib\Platform\dde.llb 的 dde.llb 库占据着重要的地位。作为一个与动态数据交换(DDE)紧密相关的库文件,它为 LabVIEW 用户提供了与其他…

摄像头畸变矫正

简单介绍 所谓畸变其实就是由摄像头引起的图片失真, 一般在广角摄像头表现明显, 原本平整的桌面通过镜头看像个球面, 直观的解释直线被拍成了曲线, 这让我想起来了一个表情包. 去畸变的办法 首先我们需要一个标准棋盘(印有特定的标定图案), 如图: 把它摊平放在桌子上, 然后用…

MySQL 中各种日志简介

MySQL 日志 慢查询日志(Slow query log) 慢查询⽇志由执⾏时间超过系统变量 long_query_time 指定的秒数的SQL语句组成,并且检 查的⾏数⼤于系统变量 min_examined_row_limit 指定值。被记录的慢查询需要进⾏优化, 可以使⽤mysqldumpslow客⼾端程序对慢…

Docker-Client for Java: 在Kotlin与Groovy中的Docker操控利器

Docker-Client for Java: 在Kotlin与Groovy中的Docker操控利器 docker-client A Docker client for Java written in Kotlin and Groovy 项目地址: https://gitcode.com/gh_mirrors/doc/docker-client 项目基础介绍及编程语言 Docker-Client 是一个专为Java虚拟机&…

自动化测试平台ATECLOUD全面解析

ATECLOUD 平台是什么 ATECLOUD 智能云测试平台是由纳米软件自主研发的数智化文字编程软件平台,在电子测试领域表现卓越。 该平台可用于上位机软件开发,具有一拖即用的便捷性,让不懂编程的人也能快速上手。与传统的代码编程和 LabVIEW 软件的…

广义表学习笔记

1. 广义表的定义 广义表(Generalized List)是一种递归的数据结构,可以为空表或包含原子和子表的表。广义表中的元素可以是原子(不可再分的基本元素)也可以是广义表,这使得广义表能够表示具有复杂嵌套结构的…