【Python】QQ群聊天记录提取
没想到我的第一篇CSDN竟然是格式化QQ群聊天记录,反正就是要分析一些东西,导出的QQ群聊记录就很不方便,所以进行一下标准化处理,处理好是下面这样的。
下面就直接贴代码了
不要问问题,不要纠错,我就是个小白,我不会。。。。。
# -*- coding: utf-8 -*-
import pandas as pdf = open('filename.txt','r',encoding='utf-8')
data1 = []
for line in f:line = line.strip('\n')data1.append(line)
f.close()
list1 = []
list2 = []
str1 = ''
for i in range(len(data1)):if len(data1[i])>10:if data1[i][:5] == '2020-':date_time_user = data1[i].split(' ',2)list1.append(date_time_user)list2.append(str1)str1=''else:str1 = str1+str(data1[i])else:str1 = str1+str(data1[i])
list2.append(str1)
list2 = list2[1:]
df = pd.DataFrame(list1)
df[3] = list2
df.columns=['date','time','name','content']
df.to_csv('聊天记录.csv', encoding='utf-8-sig')
tips:
1.导出的群聊文件自己把头几行不是聊天记录的删掉
2.群聊文件要和.py文件放在一个文件夹下,要不然的话你就去把路径改一下
3.代码第15行,愚蠢的我选择了用‘2020-’去判断是基本信息还是聊天记录,如果不是2020年的聊天记录是哪年你改哪年
4.为什么用3那样判断,因为我不知道要怎么判断每条聊天记录有几行,用了我能想到的办法就成这样了
5.python版本似乎是3.8来着,记不清也不懒得查了
反正能实现功能就行了,就这样吧,撒花✿✿ヽ(°▽°)ノ✿~