bert-base-uncased处理文档

ops/2024/11/14 1:21:22/

1.安装必要的库

确保安装 transformers 和 torch 库:

pip install transformers torch

2.加载本地 BERT 模型和分词器

由于已将模型和分词器下载到本地,可以指定文件路径加载。确保路径与本地文件结构一致。

from transformers import BertTokenizer, BertModel# 指定模型和分词器的路径
BERT_PATH = 'D:/bert/241109'# 加载分词器和模型
tokenizer = BertTokenizer.from_pretrained(BERT_PATH, local_files_only=True)
model = BertModel.from_pretrained(BERT_PATH, local_files_only=True)print("BERT 模型和分词器加载完成")

3.读取 .txt 文件内容

# 定义文件路径
file_path = 'D:/bert/AIsecKG-cybersecurity-dataset-main/datasource/textfiles/lab1.txt'# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:text = file.read()print("文本文件内容读取完成")

4.处理文本并获取 BERT 模型的输出

将读取的文本内容传入分词器并使用 BERT 模型进行处理。

# 使用分词器对文本进行编码,并自动截断超长的输入
inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)# 获取模型输出
outputs = model(**inputs)# 获取最后一层的隐藏状态(通常用于特征表示)
last_hidden_states = outputs.last_hidden_stateprint("BERT 模型输出已获取")

5.输出或保存结果

可以根据任务需要进一步处理 last_hidden_states 或者 outputs。例如,可以提取池化输出用于文本分类或其他任务。

# 使用池化输出作为文本的整体表示
pooled_output = outputs.pooler_output
print("文本的整体表示:", pooled_output)


http://www.ppmy.cn/ops/132537.html

相关文章

【Python】轻松实现机器翻译:Transformers库使用教程

轻松实现机器翻译:Transformers库使用教程 近年来,机器翻译技术飞速发展,从传统的基于规则的翻译到统计机器翻译,再到如今流行的神经网络翻译模型,尤其是基于Transformer架构的模型,翻译效果已经有了质的飞…

EasyExcel 学习之 导出 “提示问题”

EasyExcel 学习之 导出 “提示问题” 现象分析解决(伪代码)前端 POST 实现后端实现 现象 EasyExcel 支持导出 xlsx、xls、csv 三种文件格式。在导出过程中可能发生各种异常,当发生异常时应该提示错误信息而非导出一个错误的文件。 分析 首…

Hive操作库、操作表及数据仓库的简单介绍

数据仓库和数据库 数据库和数仓区别 数据库与数据仓库的区别实际讲的是OLTP与OLAP的区别 操作型处理(数据库),叫联机事务处理OLTP(On-Line Transaction Processing),也可以称面向用户交易的处理系统,它是针对具体业务…

基于 Encoder-Decoder 架构的大语言模型

基于 Encoder-Decoder 架构的大语言模型 Encoder-Decoder 架构 为了弥补 Encoder-only 架构在文本生成任务上的短板,Encoder-Decoder 架构在其基础上引入了一个解码器(Decoder),并采用交叉注意力机制来实现编码器与解码器之间的…

aws申请ssl证书的方法【该证书仅供aws】

这里先声明,过程是对的,最终没有达到目的。 原本想着申请ssl证书替代,结果发现aws证书只能给自己的服务器用 但是整套申请证书以及下载,以及使用aws控制台的过程可以参考借鉴。 起因: 腾讯云的ssl证书越来越没法用了…

SpringMVC总结 我的学习笔记

SpringMVC总结 我的学习笔记 一、SpringMVC简介1.MVC2.SpringMVC概述3. SpringMVC中的核心组件4.SpringMVC核心架构流程 二、SpringMVC框架实例具体实现使用注解实现 四、数据处理及跳转1.结果跳转方式2.处理器方法的参数与返回值处理提交数据数据显示到前端 五、RestFul风格1.…

ORACLE 删除archivelog日志

监控信息 df -h 查看磁盘空间 /oracle 500G 已用 450G,剩余 50G 具体分析 /oracle/oraarch 421G 占绝对大头,看文件信息 ,从2023年以来一直没有做过日志删除 参考ORACLE 正确删除归档日志的方法_oracle 清理归档日志-CSDN博客 0. 切换…

Ingress nginx 公开TCP服务

文章目录 背景搞起拓展( PROXY Protocol )参考 背景 公司业务繁多, HTTP、GRPC、TCP多种协议服务并存,Kubernetes流量入口复杂,所以萌生了通过LoadBalancer Ingress-nginx 的方式完全的结果入口流量,当然在高并发的场景下可以对…