Python:导出QQ聊天记录-让我们看看逗比群友都在聊什么

news/2024/11/7 9:34:21/

qq技术群,一群逗比天天不聊技术,都在摸鱼,未读消息动不动就99+,丝毫不考虑我这电脑内存小的怎么办。来,让我们看看这群逗比群友整天都在聊什么。

一、导出QQ聊天文件

手机上或者Mac上的QQ数据库是加密的,但是手机备份出来的却是明文的数据,所以我们直接用最简单的,从备份拿数据,我这里用爱思助手搞了。
在这里插入图片描述

  1. 打开爱思助手然后点击 工具箱->备份/恢复数据->选择全备份,然后等几分钟备份完成,打开全备份文件管理。
  2. 点击立即查看在这里插入图片描述
  3. 列表有一个APPDomain-com.tencent.mqq的文件夹 ,账号数据路径为
     /AppDomain-com.tencent.mqq/Documents/contents/xxQQ账号xxx/QQ.db
    
  4. 然后用支持SQlite的软件 Navicat Premium 或者 DB Browser for SQLite打开QQ.db。
    在这里插入图片描述
  5. 其中表名为tb_c2cMsg_xxxxQQ账号xxx的表,是单对单的聊天信息,tb_TroopMsg_xxx群号xxx的表,是群聊天的记录。
  6. 我们就选话最多的那个群号,然后找出来对应的表,选择导出全部数据。
    在这里插入图片描述
    7.编码选择UTF-8,导出字段不用选择全部字段,只用选择strMsg字段,然后一直点击下一步就可以了。
    在这里插入图片描述
    8.导出成功
    在这里插入图片描述
二、jieba分词
import jieba
import re# 对聊天记录文件进行分词
def cut_words():# 把聊天内容读取给contentfp = open("qqjilu.txt", "r", encoding="utf-8")content = fp.read()fp.close()#过滤img标签content=re.compile('<\s*img[^>]*>[^<]*<\s*/\s*img\s*>',re.I).sub('',content)#将br转换为换行jieba.enable_paddle()jieba.load_userdict("dict.txt")words = jieba.cut(content,  cut_all=False)     # 使用精确模式对文本进行分词counts = {}     # 通过键值对的形式存储词语及其出现的次数for word in words:if  len(word) == 1:    # 单个词语不计算在内continueelse:counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1items = list(counts.items())#将键值对转换成列表items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序for i in range(15):word, count = items[i]print("{0:<5}{1:>5}".format(word, count))if __name__ == "__main__":cut_words()

打印结果:
在这里插入图片描述

三、总结

一群逗比群友,天天不敲代码,只知道开车。


http://www.ppmy.cn/news/601509.html

相关文章

git rebase和git merge在团队协作开发中的用法

git rebase和git merge是在日常开发中常用的用于分支合并的命令&#xff0c;也是非常容易误用的两个命令。本文将通过图文的方式去详解二者之间的区别。 git merge git merge会为本次的合并过程生成一条新的commit&#xff0c;并将该commit添加到目的分支上。通常用于将featu…

持续优化 XView 性能,大促弹窗搭投实践 | 京东云技术团队

背景 618 大促来了&#xff0c;对于业务团队来说&#xff0c;最重要的事情莫过于各种大促营销。如会场、直播带货、频道内营销等等。而弹窗作为一个极其重要的强触达营销工具&#xff0c;通常用来渲染大促氛围、引流主会场、以及通过频道活动来提升频道复访等。因此&#xff0…

什么是信号槽机制,如何实现,有什么用?(Qt面试题)

1. 什么是信号槽机制&#xff1f; 信号槽机制&#xff08;Signal-Slot mechanism&#xff09;是一种在软件开发中常用的设计模式&#xff0c;用于实现对象间的通信和事件处理。该机制最初由Qt框架引入并广泛应用&#xff0c;后来也被其他编程框架和库所采用。 信号槽机制通过定…

python中转义符的用法大全_详解Python中的各种转义符\n\r\t

各种转义字符在Python中t \\ n \\ r \\ \\行连续字符转义字符描述(末端的线)\\ \\反斜杠符号single引号的双引号\\铃\\ b退格(退格)\\ e逃脱\\ 000个空\\ n换行\\ v垂直制表符\\ t水平制表符\\ r回车\\ f页面饲料\\ oyy八进制数yy代表人物,例如:\\ o12代表换行\\ xyy十进制数字…

R语言机器学习mlr3:基础使用

获取更多R语言和生信知识&#xff0c;请关注公众号&#xff1a;医学和生信笔记。 公众号后台回复R语言&#xff0c;即可获得海量学习资料&#xff01; 目录 创建任务创建learner训练、预测和性能评价 本篇主要介绍mlr3包的基本使用。 一个简单的机器学习流程在mlr3中可被分解为…

R语言入门(20)-数据增删改

一、如何取子集 办法一&#xff1a;取索引 > who <- read.csv("WHO.csv",headerT) > who1 <- who[c(1:10),c(1:10)] > View(who1) > who2 <- who[c(1,3,5,8),c(3,5,7,8)] > view(who2) Error in view(who2) : could not find function &qu…

可用于多元正态的参数估计 及 均值向量和协差阵检验 的R语言函数总结

一、多元正态的参数估计 1.1 样本均值 在R语言中&#xff0c;均值通常用函数mean()得到&#xff0c;但是mean()只能计算一维变量的样本均值&#xff0c;在面对多元随机变量的样本时&#xff0c;假设我们以数据框的形式保存样本&#xff0c;我们有以下方法可以得到样本均值&…

moran指数 r语言_R语言空间数据分析(七):空间自相关

作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量、机器学习、数据可视化、应用统计建模、知识图谱等,著有《R语言高效数据处理指南》(《R语言数据高效处理指南》(黄天元)【…