BERT--详解

news/2024/10/12 17:09:56/

BERT通过双向注意力机制来实现对上下文信息的完整捕捉,即它在计算一个词的表示时,考虑了该词前后所有词的影响。而不像传统模型只从前往后(或从后往前)考虑上下文,BERT的双向特性使它在各种自然语言处理任务(如问答系统、情感分析、文本分类等)上取得了很好的效果。

BERT的基本结构

BERT的核心结构是基于Transformer Encoder,主要由以下部分组成:

  1. 输入层:输入是由Token Embedding、Position Embedding和Segment Embedding构成的嵌入矩阵。

  2. 多层的Transformer Encoder

    • 多头自注意力机制(Multi-Head Self-Attention):通过计算输入序列中每个词与其他词之间的关系(注意力分数),从而生成词汇的上下文表示。

    • 前馈神经网络(Feed-Forward Neural Network):每个注意力头的输出通过前馈神经网络进行进一步的特征提取。

    • 残差连接(Residual Connection)和Layer Norm:通过残差连接和Layer Normalization来避免梯度消失,并加速模型训练。

  3. 输出层:BERT的输出可以根据不同任务进行调整,例如分类任务的[CLS]标记输出,或序列标注任务中的每个Token的输出。

BERT通过两种主要的无监督预训练任务进行训练:

  1. Masked Language Model(MLM):BERT在预训练时会随机遮掩输入中的部分词汇,然后通过模型预测这些被遮掩的词。

  2. Next Sentence Prediction(NSP):模型需要判断给定的两段文本是否为连续的句子,从而让BERT更好地理解句子之间的关系。

经典BERT代码实现

下面是BERT模型的经典实现代码,使用Hugging Face的transformers库来加载预训练模型并进行微调或推理。

1. 安装Hugging Face的Transformers库
pip install transformers
2. 加载预训练的BERT模型和分词器
from transformers import BertTokenizer, BertModel
​
# 加载BERT分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
​
# 加载预训练的BERT模型
model = BertModel.from_pretrained('bert-base-uncased')
​
# 输入文本
text = "BERT is a powerful model for NLP tasks."
# 对输入文本进行编码
inputs = tokenizer(text, return_tensors="pt")
​
# 前向传播,获取模型输出
outputs = model(**inputs)
​
# 获取最后一层的隐藏状态
last_hidden_states = outputs.last_hidden_state
print(last_hidden_states)

BERT处理文本生成任务的示例代码

尽管BERT主要设计为理解模型(而不是生成模型),它的双向结构使得直接用于生成任务变得困难。通常,像GPT这样的自回归模型更适合生成任务。然而,BERT仍然可以通过与其他生成机制结合来处理生成任务,例如通过Masked Language Modeling (MLM)的方式生成句子。

利用BERT进行部分填词的任务,具体实现如下:

from transformers import BertTokenizer, BertForMaskedLM
import torch
​
# 加载BERT的Masked Language Model预训练模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForMaskedLM.from_pretrained('bert-base-uncased')
​
# 输入带有[MASK]的文本
text = "BERT is a [MASK] model for NLP."
# 对输入文本进行编码
input_ids = tokenizer.encode(text, return_tensors="pt")
​
# 预测被遮蔽的词
with torch.no_grad():outputs = model(input_ids)predictions = outputs.logits
​
# 获取[MASK]位置的预测结果
mask_token_index = torch.where(input_ids == tokenizer.mask_token_id)[1]
predicted_token_id = predictions[0, mask_token_index].argmax(axis=-1)
​
# 解码预测的Token
predicted_token = tokenizer.decode(predicted_token_id)
print(f"Predicted word: {predicted_token}")

在这个例子中,句子 "BERT is a [MASK] model for NLP." 被输入到模型中,BERT会预测[MASK]对应的词。可以调整句子中的其他部分,也可以对更复杂的句子进行生成和填充。

总结

  • BERT模型概述:BERT是基于Transformer的双向预训练模型,擅长捕捉上下文语义信息,广泛应用于NLP任务。

  • 基本结构:主要由输入层、多层Transformer Encoder组成,通过MLM和NSP进行预训练。

  • 经典代码:使用Hugging Face的transformers库,简单实现BERT的文本处理。

  • 生成任务示例:尽管BERT主要用于理解任务,但可以通过MLM进行词填充等简单生成任务。


http://www.ppmy.cn/news/1537947.html

相关文章

04. maven 三种项目打包方式 pom、jar、war 的区别(记一次 Spring 项目启动报错)

文章目录 1. 记一次 Spring 项目启动报错1.1 现象1.2 分析1.3 过程复现 2. maven 项目三种打包方式的区别 1. 记一次 Spring 项目启动报错 1.1 现象 我在项目下创建了一个子模块,然后又将该子模块移除,之后启动报错,如下: com.…

IDM 6.42 Build 22激活

IDM是Windows下的下载利器,之前使用的6.41版本,今天在下载一个Github的zip文件时,报错说不支持,需要下载新的版本,看了一下新的版本目前为6.42,去官网下载安装后,需要注册或者激活才可以使用。 …

Springboot——使用poi实现excel动态图片导入解析

文章目录 前言依赖引入导入实现方式一方式二 导出参考 前言 最近要实现一个导入导出的功能点,需要能将带图片的列表数据导出到excel中,且可以导入带图片的excel列表数据。 考虑到低代码平台的表头与数据的不确定性,技术框架上暂定使用Apach…

在线matlab环境

登陆https://ww2.mathworks.cn/ 在线文档https://ww2.mathworks.cn/help/index.html 在线环境[需要先登陆]

雷池社区版本SYSlog使用教程

雷池会对恶意攻击进行拦截,但是日志都在雷池机器上显示 如何把日志都同步到相关设备进行统一的管理和分析呢? 如需将雷池攻击日志实时同步到第三方服务器, 可使用雷池的 Syslog 外发 功能 启用 Syslog 外发 进入雷池 系统设置 页面, 配置 Syslog 设置…

拿到snp的rawdata后如何使用GATK进行筛选(GATK硬筛选文档翻译)

这篇文档旨在提供一些关于我们通常推荐的硬性过滤逻辑的见解,作为 VQSR(我们通常推荐用于过滤生殖系短变异的方法)的替代方法。希望这篇指南能够帮助您适应这些推荐,或者开发出适用于与我们常用数据集显著不同的数据集的新过滤方法…

XHTML 简介

XHTML 简介 XHTML,即“可扩展超文本标记语言”(eXtensible HyperText Markup Language),是一种基于XML的标记语言,旨在取代HTML作为网页内容的标准格式。XHTML由万维网联盟(W3C)开发,旨在实现HTML向XML的过渡,提供更严格、更清晰的语法规则。本文将详细介绍XHTML的历…

万字详解AI实践,零手写编码用AI完成开发 + 数据清洗 + 数据处理 的每日新闻推荐,带你快速成为AI大神

用AIdify完成前后端开发数据处理和数据清洗。 引言数据获取和数据处理dify构建workflow进行数据清洗前端页面构建和前后端交互总结 引言 AI时代对开发人员的加强是非常明显的,一个开发人员可以依靠AI横跨数个自己不熟悉的领域包括前后端、算法等。让我们来做个实践…