微博聚类文本分析和可视化

news/2024/10/18 3:27:17/

本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等。

数据预处理

  1. prepro.py、pre_graph.py、senti_pre.py

    为了应对各种分析需求,需要数据预处理,具体所需数据文件类型和输出的结果数据结构见这三个py文件

    PS:

    prepro.py 运行时根据需要修改123、143、166行三处代码

    pre_graph.py 运行时根据需要修改127、140行两处代码

    senti_pre.py 运行时根据需要修改第119行代码

  2. zh_wiki.py、langconv.py

    这两个py文件是用于繁体转简体的无需修改

    数据分析和可视化
    词云:wc.py(需要跑完prepro.py)

    根据需要修改3、19、26行代码

    热度地图: map.py(需要跑完prepro.py)

    根据需要修改第8行代码


    转发、评论、点赞时间序列: line.py(需要跑完senti_pre.py 和 senti_analy.py)


    微博评论关系图: graph.py(需要跑完pre_graph.py)

    (参考)


    文本聚类: cluster_tfidf.py 和 cluster_w2v.py(需要跑完prepro.py)

    LDA主题模型分析: LDA.py(需要跑完senti_pre.py)tree.py(需要跑完senti_analy.py)


    情感分析(词典): senti_analy.py(需要跑完senti_pre.py)3Dbar.py(需要跑完senti_analy.py)pie.py(需要跑完senti_analy.py)


    情感分析(W2V+LSTM):Sentiment-Analysis-master文档中的senti_lstm.py(需要跑完senti_pre.py)

情感分析:


http://www.ppmy.cn/news/1425403.html

相关文章

基于Springboot的社区待就业人员信息管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的社区待就业人员信息管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三…

RedisHttpSession反序列化UID问题跟踪

1.RedisHttpSession配置 package com.visy.configure;import org.springframework.context.annotation.Configuration; import org.springframework.session.data.redis.config.annotation.web.http.EnableRedisHttpSession;Configuration EnableRedisHttpSession(maxInactive…

Python编程的循环结构小示例(一)

Python编程的循环结构小示例&#xff08;一&#xff09; 计算指定数字之内偶数的和 此示例用while循环实现&#xff0c;示例代码如下&#xff1a; sum 0number int(input(请输入指定的数字&#xff1a;)) n 0 while n < number:if n % 2 0:sum nn 1print(f{number}…

微信小程序使用 Vant Weapp 中 Collapse 折叠面板 的问题!

需求&#xff1a;结合Tab 标签页 和 Collapse 折叠面板 组合成显示课本和章节内容&#xff0c;并且用户体验要好点&#xff01; 如下图展示&#xff1a; 问题&#xff1a;如何使用Collapse 折叠面板 将内容循环展示出来&#xff1f; js中的数据是这样的 代码实现&#xff1…

Apache Storm详细配置

Apache Storm是一个分布式实时大数据处理系统&#xff0c;能够并行地对实时数据执行各种操作。它广泛应用于各种需要实时数据处理和分析的场景&#xff0c;例如网站统计、推荐系统、预警系统以及金融系统等。Storm的核心特性包括其简单性、可伸缩性和容错性&#xff0c;它保证了…

Finding a needle in Haystack: Facebook’s photo storage——论文泛读

OSDI 2010 Paper 分布式元数据论文阅读笔记整理 问题 到2010年为止&#xff0c;用户已经在Facebook上传了超过650亿张照片&#xff0c;对于每个上传的照片&#xff0c;Facebook生成并存储四个不同大小的图像&#xff0c;导致目前存储了超过2600亿张图片&#xff0c;相当于超过…

云原生Kubernetes: K8S 1.29版本 部署Jenkins

目录 一、实验 1.环境 2.K8S 1.29版本 部署Jenkins 服务 3.jenkins安装Kubernetes插件 二、问题 1.创建pod失败 2.journalctl如何查看日志信息 2.容器内如何查询jenkins初始密码 3.jenkins离线安装中文包报错 4.jenkins插件报错 一、实验 1.环境 &#xff08;1&…

数据结构:堆

这张网络上的图片很形象的展示了一棵具有多个分支的独特树木&#xff0c;其分支模式类似于&#xff08;甚至于是完美&#xff09;二叉树的结构。我们可以将这棵树的形态作为引入二叉树概念的一个隐喻。在二叉树中&#xff0c;每个节点最多有两个子节点&#xff0c;这与树木的分…