【MindSpore学习打卡】应用实践-LLM原理和实践-基于MindSpore实现BERT对话情绪识别

embedded/2024/10/19 2:25:45/

在当今的自然语言处理(NLP)领域,情绪识别是一个非常重要的应用场景。无论是在智能客服、社交媒体分析,还是在情感计算领域,准确地识别用户的情绪都能够极大地提升用户体验和系统的智能化水平。BERT(Bidirectional Encoder Representations from Transformers)作为一种强大的预训练语言模型,已经在多个NLP任务中展示了其卓越的性能。在这篇博客中,我们将详细介绍如何基于MindSpore框架,利用BERT模型实现对话情绪识别。通过一步步的代码示例和详细解释,帮助你掌握这一技术。

模型简介

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer的双向编码器表征模型。它主要通过两种预训练任务来捕捉词语和句子级别的表征:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。

  • Masked Language Model:随机将语料库中15%的单词进行掩码操作,模型需要预测这些被掩码的单词。
  • Next Sentence Prediction:模型需要预测两个句子之间是否存在顺序关系。

BERT预训练后,可以用于多种下游任务,如文本分类、相似度判断、阅读理解等。

数据集准备

在数据集准备部分,我们下载并解压了百度飞桨团队提供的机器人聊天数据集。这个数据集已经过预处理,并包含了情绪标签。每一行数据由一个标签和一个经过分词处理的文本组成。标签表示情绪类别(0表示消极,1表示中性,2表示积极),文本则是用户的对话内容。通过使用这种结构化的数据,我们可以更方便地进行情感分类任务。

# 下载数据集
!wget https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz -O emotion_detection.tar.gz
!tar xvf emotion_detection.tar.gz

数据集格式如下:

label--text_a
0--谁骂人了?我从来不骂人,我骂的都不是人,你是人吗 ?
1--我有事等会儿就回来和你聊
2--我见到你很高兴谢谢你帮我

数据加载和预处理

数据加载和预处理是机器学习流程中至关重要的一步。我们使用了GeneratorDataset来加载数据,并通过映射操作将文本转换为模型可以接受的格式。具体来说,我们使用了BertTokenizer将文本Tokenize成词汇ID,并进行填充(Pad)操作。这样做的目的是确保所有输入序列的长度一致,从而提高训练效率和模型性能。

import numpy as np
from mindspore.dataset import text, GeneratorDataset, transforms
from mindnlp.transformers import BertTokenizerdef process_dataset(source, tokenizer, max_seq_len=64, batch_size=32, shuffle=True):is_ascend = mindspore.get_context('device_target') == 'Ascend'column_names = ["label", "text_a"]dataset = GeneratorDataset(source, column_names=column_names, shuffle=shuffle)type_cast_op = transforms.TypeCast(mindspore.int32)def tokenize_and_pad(text):if is_ascend:tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)else:tokenized = tokenizer(text)return tokenized['input_ids'], tokenized['attention_mask']dataset = dataset.map(operations=tokenize_and_pad, input_columns="text_a", output_columns=['input_ids', 'attention_mask'])dataset = dataset.map(operations=[type_cast_op], input_columns="label", output_columns='labels')if is_ascend:dataset = dataset.batch(batch_size)else:dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id), 'attention_mask': (None, 0)})return datasettokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
dataset_train = process_dataset(SentimentDataset("data/train.tsv"), tokenizer)
dataset_val = process_dataset(SentimentDataset("data/dev.tsv"), tokenizer)
dataset_test = process_dataset(SentimentDataset("data/test.tsv"), tokenizer, shuffle=False)

在这里插入图片描述

模型构建

在模型构建部分,我们使用了BertForSequenceClassification来进行情感分类任务。这个预训练模型已经在大规模语料上进行了训练,具有强大的语言理解能力。通过加载预训练权重,我们可以显著提升模型在情感分类任务上的表现。同时,我们使用了自动混合精度(auto mixed precision)技术,这不仅可以加速训练过程,还能减少显存使用,从而在有限的硬件资源下实现更高效的训练。

优化器和评价指标是模型训练中的重要组件。我们选择了Adam优化器,因为它在处理大规模数据和复杂模型时表现优异。评价指标方面,我们使用了准确率(Accuracy)来衡量模型的性能。通过这些设置,我们可以确保模型在训练过程中不断优化,并在验证集上取得良好的表现。

回调函数在模型训练过程中发挥着重要作用。我们设置了两个回调函数:CheckpointCallbackBestModelCallback。前者用于定期保存模型的权重,后者则自动加载表现最好的模型权重。通过这些回调函数,我们可以确保在训练过程中不会丢失重要的模型参数,并且始终使用表现最佳的模型进行推理和评估。

from mindnlp.transformers import BertForSequenceClassification
from mindspore import nn
from mindnlp._legacy.amp import auto_mixed_precisionmodel = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)
model = auto_mixed_precision(model, 'O1')optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)
metric = Accuracy()
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='bert_emotect', epochs=1, keep_checkpoint_max=2)
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='bert_emotect_best', auto_load=True)trainer = Trainer(network=model, train_dataset=dataset_train,eval_dataset=dataset_val, metrics=metric,epochs=5, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb])
trainer.run(tgt_columns="labels")

模型验证

在模型验证部分,我们使用验证数据集来评估模型的性能。通过计算模型在验证集上的准确率,我们可以了解模型的泛化能力和实际效果。这一步骤非常重要,因为它可以帮助我们发现模型在训练过程中可能存在的问题,并进行相应的调整和优化。

evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)
evaluator.run(tgt_columns="labels")

模型推理

模型推理部分展示了如何使用训练好的模型对新数据进行情感分类。我们定义了一个predict函数,通过输入文本进行情感预测,并输出预测结果。这个步骤展示了模型的实际应用能力,并验证了模型的泛化性能。

dataset_infer = SentimentDataset("data/infer.tsv")def predict(text, label=None):label_map = {0: "消极", 1: "中性", 2: "积极"}text_tokenized = Tensor([tokenizer(text).input_ids])logits = model(text_tokenized)predict_label = logits[0].asnumpy().argmax()info = f"inputs: '{text}', predict: '{label_map[predict_label]}'"if label is not None:info += f" , label: '{label_map[label]}'"print(info)for label, text in dataset_infer:predict(text, label)

在这里插入图片描述

自定义推理数据

最后,我们展示了如何使用模型对自定义输入进行情感识别。这一步骤不仅展示了模型的实际应用能力,还验证了模型在不同输入下的表现。通过这种方式,我们可以进一步了解模型的泛化能力和实际效果。

predict("家人们咱就是说一整个无语住了 绝绝子叠buff")

在这里插入图片描述


http://www.ppmy.cn/embedded/58703.html

相关文章

Windows右键没有新建Word、PPT与Excel的解决方法

本文介绍在Windows电脑中,右键与资源管理器的“新建”选项中,都没有新建Word、PPT或Excel文件的解决方法。 最近,发现一台重装了系统与Office的电脑中,无论是桌面上与资源管理器中的右键,还是资源管理器左侧顶部的“新…

[Linux]基本指令(二)

一些剩下的指令部分 mv指令(重要) mv 命令是 move 的缩写,可以用来移动文件或者将文件改名( move (rename) files ),是 Linux 系统下常用的命令, 经常用来备份文件或者目录。 语法 : mv [ 选项…

MySQL-数据库管理:优化、安全、合规与迁移的全面解析

1. 数据库设计 1.1 需求分析 数据库设计的第一步是深入理解应用的需求。这通常涉及到与项目团队(包括产品经理、开发者、业务分析师等)的紧密合作,以确保数据库设计能够准确地反映业务需求。需求分析阶段的关键活动包括: 收集信…

微米级触觉感知的紧凑视触觉机器人皮肤

视触觉皮肤(VTS)分为涂层型、标记型和热致变色型。涂层的耐磨性和空间分辨率是涂层型VTS的核心问题。近期,北京邮电大学方斌教授联合中国地质大学(北京)杨义勇教授,在传感器领域Q1期刊IEEE Sensors Journal…

玄机——第五章 linux实战-CMS01 wp

文章目录 一、前言二、概览简介 三、参考文章四、步骤(解析)准备步骤#1.0步骤#1.1通过本地 PC SSH到服务器并且分析黑客的 IP 为多少,将黑客 IP 作为 FLAG 提交; 步骤#1.2通过本地 PC SSH到服务器并且分析黑客修改的管理员密码(明文)为多少,将黑客修改的…

动手学深度学习(Pytorch版)代码实践 -循环神经网络-55循环神经网络的从零开始实现和简洁实现

55循环神经网络的实现 1.从零开始实现 import math import torch from torch import nn from torch.nn import functional as F from d2l import torch as d2l import matplotlib.pyplot as plt import liliPytorch as lp# 读取H.G.Wells的时光机器数据集 batch_size, num_ste…

3102.最小化曼哈顿距离

解题思路 分析时间复杂度,计算任意两点的曼哈顿距离达到 O ( n 2 ) O(n^2) O(n2),会超时需要优化。 因此优化可以将曼哈顿距离与切比雪夫距离的相互关系找出来,然后转换成求切比雪夫距离的方式,得到 d i s t a n c e ( A , B ) …

kafka的副本replica

指定topic的分区和副本 通过kafka命令行工具 kafka-topics.sh --create --topic myTopic --partitions 3 --replication-factor 1 --bootstrap-server localhost:9092 执行代码时指定分区个数