python电商评论情感分析_电商产品评论数据情感分析

news/2024/10/28 22:30:36/

来自:Python数据分析与挖掘实战——张良均著

1. 分析方法与过程

本次建模针对京东商城上“美的”品牌热水器的消费者评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,得到有价值的内在内容。

2. 评论数据预处理

文本数据的预处理主要由3个部分组成:文本去重、机械压缩去词、短句删除。

2.1 文本去重

1. 文本去重,就是去除文本评论数据中重复的部分。

去重的原因:

(1). 一些电商平台避免客户长时间不评论,设置一道程序,用户超过规定时间不评论,系统会自动评论。(比如国美)

(2). 同一个人出现重复评论,比如:同一个人购买多种热水器为了省事,复制粘贴,就会出现在同样或相近的评论,当然不乏有价值的评论,但只是第一条有作用。

(3). 由于语言的特点,大多数情况下,不同人之间有价值的评论不会出现重复,比如:“好好好好好好”,“XX牌热水器  XX升”或者复制、粘贴上一个人的评论,这种评论显然就只有最早评论才有意义(即第一条)

2.常见文本去重算法及缺陷

许多文本去重算法通过计算文本之间的相似度,以此为基础去重,包括编辑距离去重、Simhash算法去重等。

编辑距离算法去重是计算两条语料的编辑距离,然后进行阈值判断,如果编辑距离小于阈值则进行去重处理。

比如:"XX 牌热水器 XX升 大品牌高质扯“ 以及 &#


http://www.ppmy.cn/news/597896.html

相关文章

《Python数据分析与挖掘实战》第15章 ——电商产品评论数据情感分析(LED)

文章目录 1.挖掘背景与目标2.2 数据探索与预处理2.1 数据筛选2.2 数据去重2.3 删除前缀评分2.4 jieba分词 3 基于LDA 模型的主题分析4.权重5.如何在主题空间比较两两文档之间的相似度 本文是基于《Python数据分析与挖掘实战》的实战部分的第15章的数据——《电商产品评论数据情…

考研英语 - word-list-15

每天十个单词,本博客收集整理自《考研英语词汇》,仅供学习和个人积累。 新东方单词在线阅读地址 ,希望这个链接一直都有效 :) 2017年03月28日 08:08:29 erosion 词义: n.腐蚀,磨损;削弱,减少例…

编程:“上学时如果遇到自己,我会更早的成为我?”

作者:小傅哥 博客:https://bugstack.cn 沉淀、分享、成长,让自己和他人都能有所收获!😄 如果当年我遇到自己,我会更早的成为我? 你觉得一瞬间的技术能力提升,是必须经历过过吃苦或者…

【OpenCV • c++】颜色数据结构与颜色空间转换

🚀 个人简介:CSDN「博客新星」TOP 10 , C/C 领域新星创作者💟 作 者:锡兰_CC ❣️📝 专 栏:【OpenCV • c】计算机视觉🌈 若有帮助,还请关注➕点赞➕收藏&#xff…

【Java】Java核心 73:XML (中)

文章目录 5 XML的组成:字符区(了解)**6** **DTD约束(能够看懂即可)****1** **什么是DTD****2** **DTD约束的实现和语法规则(看懂dtd约束,书写符合规范的xml文件)** 5 XML的组成:字符区(了解) 当大量的转义字符出现在x…

使用自定义 C++ 类扩展 TorchScript

使用自定义 C 类扩展 TorchScript 本教程是自定义运算符教程的后续教程,并介绍了我们为将 C 类同时绑定到 TorchScript 和 Python 而构建的 API。 该 API 与pybind11非常相似,如果您熟悉该系统,则大多数概念都将转移过来。 用 C 实现和绑定…

Qt绘图高级编程-绘制文本

注意:以下代码是在paintEvent函数中使用的,坐标是在文本的左下角。 1、设置字体样式 /*-----------1、设置字体样式-----------*///设置画家写字的字体//字体名, 字体大小,粗体,是否斜体QFont font( "楷体"…

购买诺基亚手机须知

一、米井06井,是查手机的序列号! 二、米井0000井,查看手机的版本、出厂日期和手机型号! 三、米井92702689井,查看手机的总计时器,要买全新手机的就可以用这个,如果没有用过的就显示000000&#…