【大数据处理与可视化】八、文本数据分析
- 实验目的
- 实验内容
- 实验步骤
- 一、案例——商品评价分析
- 1、读取数据,并转换成DataFrame对象进行展示。
- 2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
- 3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
- 4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
- 5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
- 6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
- 实验小结
实验目的
能够熟练运用文本数据分析对文本数据进行分析。
实验内容
商品评价分析:本实验将针对某宝网站中某卫衣的用户评价进行简单的分析,并使用词云渲染一些关键词。词云是对网络中出现的频率比较高的“关键词”予以视觉上的突出,形成关键词渲染,从而过滤掉大量的文本信息,使得浏览网页的人一眼扫过文本就可以领略文本的主旨。首先获取某网站中用户对某卫衣的评价,然后从这些评论文本中筛选出现频率较高的一些词语,并使用词云的方式进行展示,让有意购买此商品的用户能够快速地了解其他用户对该商品的感受,并为他们提供有效的参考依据。
实验步骤
一、案例——商品评价分析
1、读取数据,并转换成DataFrame对象进行展示。
代码:
import pandas as pd
from nltk import FreqDist
import jieba
file_path = open(r'D:\test.csv')
file_data = pd.read_csv(file_path)
file_data
截图:
2、从输出的结果看,多条评价信息是没用且重复的,所以,要用pandas中的drop_duplicates()方法删除重复的数据。
代码:
file_data = file_data.drop_duplicates()
file_data
截图:
3、删除完重复数据后,计算机仍然不能分析出商品的好坏,这主要是因为文本的信息量是比较庞大的,我们需要对这些文本进行分析等预处理操作,以便统计词频。
代码:
cut_words = jieba.lcut(str(file_data['评价信息'].values),cut_all=False)
cut_words
截图:
4、从输出的列表可以看出,分词的结果中有很多诸如“了”,“一个”,“是”等字或词,它们对于分析用户评价是没有意义的,需要参考中文停用词表,将这些没有意义的词进行删除。
代码:
file_path=open(r'D:\停用词表.txt',encoding='utf-8')
stop_words = file_path.read()
new_data = []
for word in cut_words:if word not in stop_words:new_data.append(word)
new_data
截图:
5、在删除停用词之后,从输出的结果可以大致看出评价的特征信息,不过后期还是需要统计这些词语出现的次数,才能进一步知晓用户对商品的喜恶。
代码:
freq_list = FreqDist(new_data)most_common_words = freq_list.most_common()
most_common_words
截图:
6、使用wordcloud模块进行词云展示,wordcloud模块将出现频率高的词语进行放大显示,而出现频率低的词语进行缩小显示。
代码:
from matplotlib import pyplot as plt
from wordcloud import WordCloudfont = r'C:\Windows\Fonts\simkai.ttf'
text = " ".join(new_data)
wc = WordCloud(font_path='msyh.ttc').generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()
截图:
实验小结
通过本次实验,我能够详述常见图表的类型和特点,能够熟练运用Matplotlib库绘制图表。在实验过程中遇到了很多硬件或者是软件上的问题,请教老师,询问同学,上网查资料,都是解决这些问题的途径。最终将遇到的问题一一解决最终完成实验。
注意事项:
1、有疑问前,知识学习前,先用搜索。
2、熟读写基础知识,学得会不如学得牢。
3、选择交流平台,如QQ群,网站论坛等。
4、尽我能力帮助他人,在帮助他人的同时你会深刻巩固知识。