爬虫实战之《流浪地球》豆瓣影评分析(二)

news/2024/11/17 22:20:54/

3. 分析好评与差评的关键信息

依靠绘制词云图,来分析好评与差评的关键信息的区别

数据预处理

依靠上一篇爬取到的csv文件,来进行分析,首先导入文件,重点是短评正文的信息。
首先是使用结巴库来进行分词,然后去除停用词(停用词是网上公开的,可以自己去找。
代码:

import pandas as pd
import jiebadata = pd.read_csv("doubanliulangdiqiu.csv", encoding='GB18030')	# 读取数据
with open('stopword.txt','r') as f:stopWords = f.read()	# 读取停用词
stopWords = ["\n",""," "]+ stopWords.split() # 把可能用的停用词加载进去data_cut = data['短评正文'].apply(jieba.lcut)  # 结巴分词
data_after = data_cut.apply(lambda x: [i for i in x if i not in stopWords])# 去除停用词

数据预处理结束

统计词频

使用list()把数据转换成列表,然后使用_flatten()来展平,使用pd.Series()来转换成序列,使用value_counts()统计频率

from tkinter import _flatten
pd.Series(_flatten(list(data_after))).value_counts()

绘制词云

把词频命名为wordFre,背景偷懒一下,直接导入一个图片进去

import matplotlib.pyplot as plt
from wordcloud import WordCloud
mask = plt.imread('aixin.jpg')
wc = WordCloud(font_path='simkai.ttf',# 设置字体mask=mask,background_color='white')
wc.fit_words(wordFre)
plt.imshow(wc)  # 词云
plt.axis('off') # 关闭坐标

最后看看效果图

在这里插入图片描述
最后封装成函数:

def my_word_cloud(data=None.stopWords=None, img=None):data_cut = data.apply(jieba.lcut)  # 结巴分词data_after = data_cut.apply(lambda x: [i for i in x if i not in stopWords])  # 去除停用词# 统计词频wordFre = pd.Series(_flatten(list(data_after))).value_counts()# 设置背景mask = plt.imread('aixin.jpg')wc = WordCloud(font_path='simkai.ttf',# 设置字体mask=mask,background_color='white')# 词云绘制wc.fit_words(wordFre)plt.imshow(wc)  # 词云plt.axis('off') # 关闭坐标plt.show()

把评分三星以下为差评,三星及三星以上为好评,做个词云:

index_negative = data['评分'] < 30.0
index_positive = data['评分'] >= 30.0my_word_cloud(data['短评正文'][index_negative],stopWords,'aixin.jpg') # 差评词云
my_word_cloud(data['短评正文'][index_positive],stopWords,'aixin.jpg') # 好评词云

最后的词云:
在这里插入图片描述


http://www.ppmy.cn/news/964011.html

相关文章

爬虫实战之《流浪地球》豆瓣影评分析(一)

背景与挖掘目标获取豆瓣评论数据分析好评与差评的关键信息分析评论数量及评分与时间的关系分析评论者的城市分布情况 1. 背景与挖掘目标 豆瓣&#xff08;douban&#xff09;是一个社区网站。网站由杨勃&#xff08;网名“阿北”&#xff09; 创立于2005年3月6日。该网站以书影…

《流浪地球》影评数据爬取分析

《流浪地球》影评数据爬取分析 人生苦短&#xff0c;我用Python。 阿巴阿巴阿巴&#xff0c;爬虫初学者&#xff0c;志在记录爬虫笔记&#xff0c;交流爬虫思路。 话不多说&#xff0c;开始进行操作。 对于电影数据影评的爬取&#xff0c;这里选取的网站是豆瓣网&#xff08;…

650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星

开源LLaMA神话再次复现&#xff01;首个开源650亿参数大模型高性能预训练方案&#xff0c;训练加速38%&#xff0c;低成本打造量身大模型。 「百模大战」正风起云涌&#xff0c;AIGC相关企业融资和并购金额也屡创新高&#xff0c;全球科技企业争相入局。 然而&#xff0c;AI大…

AI炒股:用Claude来分析A股2023年中报业绩预告

Claude是和ChatGPT类似的AI大模型&#xff0c;据测试 AI 的水平能力接近 GPT-4&#xff0c;支持高达 100K token 的上下文。Claude只需要到官方网站注册账号后就可以直接免费使用。不过&#xff0c;目前智能美国和英国的 IP 可以注册和使用。 Claude支持上传文档功能&#xff…

人人都能看懂的 ChatGPT 原理课:从 GPT1.0 到 ChatGPT,经历了什么?

目录 GPT 初代 GPT 的语言建模 语言模型的编解码 GPT-2 GPT-3 大模型中的大模型

我用ChatGPT搞懂GPT技术原理,只问了30个问题,这是极致的学习体验!

自己前段时间写了一篇文章《问了ChatGPT 上百个问题后&#xff0c;我断定ChatGPT可以重塑学习范式&#xff01;》&#xff0c;讲了使用ChatGPT的感受&#xff0c;最近我开始学习GPT的技术原理&#xff0c;原因有三个&#xff1a; 1、工作中有可能要用到GPT&#xff0c;理解GPT的…

ChatGPT的插件能用了,每月 20 美元的实习生真香

文章目录 开启插件并使用其他补充缺点和不足总结 哈喽嗨&#xff01;你好&#xff0c;我是小雨青年&#xff0c;一名 追赶 AI 步伐的程序员。 自从上周 OpenAI 官宣了即将开放插件给 Plus 用户以来&#xff0c;这三天我就每天都会刷新ChatGPT 设置页面。 直到今天早上&#x…

关于济南职称评审论文发表

论文为什么要提前准备呢&#xff1f; 1、二次审稿被退 2、期刊排期被延期 3、论文在快递途中出错 4、发稿单位人为操作被漏稿 5、网上检索延续&#xff08;职称申报时&#xff0c;论文必须是能被检索到的论文才作数&#xff0c;否则无效&#xff09; 具体的职称评审论文发…