【大数据处理与可视化】八、文本数据分析

news/2024/11/24 14:15:59/

【大数据处理与可视化】八、文本数据分析

  • 实验目的
  • 实验内容
  • 实验步骤
    • 一、案例——商品评价分析
      • 1、读取数据,并转换成DataFrame对象进行展示。
      • 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
      • 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
      • 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
      • 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
      • 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
  • 实验小结


实验目的

       能够熟练运用文本数据分析对文本数据进行分析。


实验内容

       商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。


实验步骤

一、案例——商品评价分析

1、读取数据,并转换成DataFrame对象进行展示。

代码:

import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data

截图:

在这里插入图片描述


2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。

代码:

file_data = file_data.drop_duplicates()
file_data

截图:

在这里插入图片描述


3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。

代码:

cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words

截图:

在这里插入图片描述


4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。

代码:

file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:if word not in stop_words:new_data.append(word)
new_data

截图:

在这里插入图片描述


5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。

代码:

freq_list = FreqDist(new_data)most_common_words = freq_list.most_common()
most_common_words

截图:

在这里插入图片描述


6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。

代码:

from matplotlib import pyplot as plt
from wordcloud import WordCloudfont = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()

截图:

在这里插入图片描述


实验小结

       通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。


http://www.ppmy.cn/news/101783.html

相关文章

Qt翻金币小游戏详细教程(内涵所有源码、图片资源)

一、项目简介 翻金币项目是一款经典的益智类游戏,我们需要将金币都翻成同色,才视为胜利。首先,开始界面如下: 点击start按钮,进入下层界面,选择关卡: 在这里我们设立了20个关卡供玩家选择&…

一文彻底明白什么是Java注解!

Java注解可以说是我们编码过程中最常用的。本篇文章将给大家介绍Java注解的概念、作用以及如何使用注解来提升代码的可读性和灵活性,并介绍如何通过注解来优化我们的Java代码。 1、什么是Java注解? Java注解是一种元数据形式,可以被添加到J…

MKS SERVO4257D 闭环步进电机_系列5 CAN指令说明

第1部分 产品介绍 MKS SERVO 28D/35D/42D/57D 系列闭环步进电机是创客基地为满足市场需求而自主研发的一款产品。具备脉冲接口和RS485/CAN串行接口,支持MODBUS-RTU通讯协议,内置高效FOC矢量算法,采用高精度编码器,通过位置反馈&am…

如何选择专业的低代码开发平台?为企业数字化转型保驾护航

在当今快节奏的商业环境中,软件开发已经成为任何组织的关键方面。然而,由于市场上有无数的软件开发平台,选择合适的平台可能是一项艰巨的任务。对于任何想要创建满足其业务需求的高质量应用程序的组织来说,选择正确的软件开发平台…

“游蛇”大规模邮件攻击针对中国用户

近半年黑客团伙频频对我国实施攻击活动。研究人员发现,“游蛇”黑产团伙自2022年下半年开始至今,针对中国用户发起了大规模电子邮件攻击活动。 黑客使用电子邮件在内的多种传播方式。 该团伙利用钓鱼邮件、伪造的电子票据下载站、虚假应用程序下载站、…

常见数据结构种类

常见数据结构种类 数据存储的常用结构有:栈、队列、数组、链表和红黑树 a.队列(queue) – 先进先出,后进后出。 – 场景:各种排队。叫号系统。 – 有很多集合可以实现队列。 b.栈(stack) – …

ansible部署zookeeper和kafka集群

ansible部署zookeeper和kafka集群 基础环境准备配置ansible文件(zookeeper)配置ansible文件(kafka) 节点IPansible192.168.200.75node1192.168.200.76node2192.168.200.77node3192.168.200.78 基础环境准备 基础环境配置就不过多…

牛客刷题(HTML-Day1)

第一题&#xff1a; 1.下列代码在页面中显示的内容为&#xff08; &#xff09; <!DOCTYPE html> <html> <body> <p>hello<q>html</q></p> </body> </html> A hello“html” B hello html C hello“”html D 其他几…