关于红楼梦Python文本分析

news/2025/1/12 17:56:07/

1.  获取小说文本  读取文件

# 获取小说文本
# 读取文件
fn = open("prepare\\红楼梦_曹雪芹.txt", encoding="utf-8")
string_data = fn.read()  # 读出整个文件
fn.close()  # 关闭文件

2.对文本进行处理 

# 文本预处理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"')  # 定义正则表达式匹配模式
txt = re.sub(pattern, '', string_data)  # 将符合模式的字符去除
print('预处理完毕')# 停词文档
def stopwordslist(filepath):stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]return stopwords
stopwords = stopwordslist('D:\\Python studybag\\prepare\\tingyong.txt')
excludes = {'之','其','方','即','因','仍','故','尚','乃','呀','吗','咧','罢','咧','啊','罢','了','么','或', ' 亦', '于', ' 皆', '的', '着', '一' , '不', '把', '让','向', '往', '是' , '在', '别','好', '可', '便', '就',' 但','越','再','更', '比','很','偏','那里','如今','一个','我们','你们','起来','姑娘','这里','二人','说道','知道','如何','今日','什么','于是','还有','出来','他们','众人','奶奶','自己','一面','太太','只见','怎么','两个','没有','不是','不知','这个','听见','这样','进来','告诉','东西','咱们','就是','如此','回来','大家','只是','老爷','只得','丫头','这些','不敢','出去','所以','不过','姐姐','的话','不好','鸳鸯','一时','过来','不能','心里','银子','答应','几个'} # 排除的词汇

3. 词频

# 通过键值对的形式存储词语及其出现的次数
counts1 = {}  # 存放词性词频
counts2 = {}  # 存放人物词频
# # 生成词频词性文件
def getWordTimes1():cutFinal = pseg.cut(txt)for w in cutFinal:if w.word in stopwords or w.word == None:continueelse:real_word = w.word + '_' + w.flagcounts1[real_word] = counts1.get(real_word, 0) + 1getWordTimes1()items1 = list(counts1.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items1.sort(key=lambda x: x[1], reverse=True)# 导出数据
# 分词生成人物词频(写入文档)
def wordFreq1(filepath, topn1):with codecs.open(filepath, "w", "utf-8") as f:for i in range(topn1):word, count = items1[i]f.write("{}:{}\n".format(word, count))# 生成词频文件
wordFreq1("output\\红楼梦词频词性.txt", 300)# 将txt文本里的数据转换为字典形式
fr1 = open('output\\红楼梦词频词性.txt', 'r', encoding='utf-8')
dic1 = {}
keys1 = []  # 用来存储读取的顺序
for line in fr1:# 去空白,并用split()方法返回列表v1 = line.strip().split(':')dic1[v1[0]] = v1[1]keys1.append(v1[0])
fr1.close()list_name1 = list(dic1.keys())  # 人名
list_name_times1 = list(dic1.values())  # 提取字典里的数据作为绘图数据
def create_wordproperties():bar1 = Bar()bar1.add_xaxis(list_name1[0:keshihuaTop])bar1.add_yaxis("词语出现次数", list_name_times1)bar1.set_global_opts(title_opts=opts.TitleOpts(title="词频词性可视化图", subtitle="词频词性top10"),xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))bar1.set_series_opts(label_opts=opts.LabelOpts(position="top"))# 生成 html 文件bar1.render("\\output\\红楼梦词频词性可视化图.html")

 

4. 对人名进行分析

# 得到 分词和出现次数
def getWordTimes2():# 分词,返回词性poss = pseg.cut(txt)for w in poss:if w.flag != 'nr' or len(w.word) < 2 or w.word in excludes:continue  # 当分词长度小于2或该词词性不为nr(人名)时认为该词不为人名elif w.word == '宝哥哥' or w.word == '宝玉曰' or w.word == '宝二爷' or w.word == '绛洞花主' \or w.word == '怡红公子' or w.word == '宝兄弟' or w.word == '混世魔王' or w.word == '宝玉':real_word = '贾宝玉'elif w.word == '黛玉' or w.word == '颦儿' or w.word == '潇湘妃子' or w.word == '林姑娘' or \w.word == '林妹妹' or w.word == '黛玉曰' or w.word == '颦颦':real_word = '林黛玉'elif w.word == '宝钗' or w.word == '宝钗曰' or w.word == '宝丫头' or w.word == '宝姐姐' or w.word == '薛大姑娘':real_word = '林宝钗'elif w.word == '熙凤' or w.word == '熙凤曰' or w.word == '琏二奶奶' or w.word == '凤辣子' or w.word == '凤哥儿' \or w.word == '凤丫头' or w.word == '凤姐' or w.word == '凤姐儿' or w.word == '琏二嫂子':real_word = '王熙凤'elif w.word == '贾母' or w.word == '贾母曰' or w.word == '史太君' or w.word == '老祖宗' or w.word == '老太太' \or w.word == '老神仙':real_word = '贾母'elif w.word == '湘云' or w.word == '湘云曰' or w.word == '枕霞旧友' or w.word == '史大姑娘' or w.word == '云妹妹':real_word = '史湘云'elif w.word == '姨妈' or w.word == '姨妈曰' or w.word == '薛夫人' or w.word == '薛王氏' or w.word == '姨太太':real_word = '贾迎春'elif w.word == '探春' or w.word == '探春曰' or w.word == '玫瑰花' or w.word == '蕉下客':real_word = '贾探春'elif w.word == '贾珍' or w.word == '贾珍曰' or w.word == '珍老爷' or w.word == '大爷' or w.word == '大哥哥' :real_word = '贾珍'elif w.word == '贾琏' or w.word == '贾琏曰' or w.word == '琏二爷' or w.word == '二爷':real_word = '贾琏'elif w.word == '袭人' or w.word == '袭人曰' or w.word == '蕊珠' or w.word == '花珍珠':real_word = '袭人'elif w.word == '平儿' or w.word == '平儿曰' or w.word == '小平' or w.word == '平姑娘' or w.word == '平姐姐':real_word = '平儿'  # 把相同意思的名字归为一个人else:real_word = w.wordcounts2[real_word] = counts2.get(real_word, 0) + 1getWordTimes2()
items2 = list(counts2.items())
# 进行降序排列 根据词语出现的次数进行从大到小排序
items2.sort(key=lambda x: x[1], reverse=True)# 导出数据
# 分词生成人物词频(写入文档)
def wordFreq2(filepath, topn):with codecs.open(filepath, "w", "utf-8") as f:for i in range(topn):word, count = items2[i]f.write("{}:{}\n".format(word, count))# 生成词频文件
wordFreq2("D:\\Python studybag\\output\\红楼梦词频_人名.txt", 300)# 将txt文本里的数据转换为字典形式
fr = open('D:\\Python studybag\\output\\红楼梦词频_人名.txt', 'r', encoding='utf-8')
dic = {}
keys = []  # 用来存储读取的顺序
for line in fr:# 去空白,并用split()方法返回列表v = line.strip().split(':')dic[v[0]] = v[1]keys.append(v[0])
fr.close()
# 输出前几个的键值对
print("人物出现次数TOP", mainTop)
print(list(dic.items())[:mainTop])#  绘图
# 人名列表 (用于人物关系图,pyecharts人物出场次数图)
list_name = list(dic.keys())  # 人名
list_name_times = list(dic.values())  # 提取字典里的数据作为绘图数据# 可视化人物出场次数
def creat_people_view():bar = Bar()bar.add_xaxis(list_name[0:keshihuaTop])bar.add_yaxis("人物出场次数", list_name_times)bar.set_global_opts(title_opts=opts.TitleOpts(title="人物出场次数可视化图", subtitle="红楼梦TOP10"),xaxis_opts=opts.AxisOpts(axislabel_opts={"rotate": 45}))bar.set_series_opts(label_opts=opts.LabelOpts(position="top"))# bar.render_notebook()  # 在 notebook 中展示# make_snapshot(snapshot, bar.render(), "bar.png")# 生成 html 文件bar.render("D:\\Python studybag\\output\\红楼梦人物出场次数可视化图.html")

 5.词云

 

# 使用pyecharts 的方法生成词云
def creat_wordcloud_pyecharts():wordsAndTimes = list(dic.items())(WordCloud().add(series_name="人物次数", data_pair=wordsAndTimes,word_size_range=[20, 100], textstyle_opts=opts.TextStyleOpts(font_family="cursive"), ).set_global_opts(title_opts=opts.TitleOpts(title="红楼梦词云")).render("D:\\Python studybag\\output\\红楼梦词云_人名.html"))# 颜色生成
colorNum = len(list_name[0:peopleTop])# print('颜色数',colorNum)
def randomcolor():colorArr = ['1', '2', '3', '4', '5', '6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F']color = ""for i in range(6):color += colorArr[random.randint(0, 14)]return "#" + colordef color_list():colorList = []for i in range(colorNum):colorList.append(randomcolor())return colorList

 


http://www.ppmy.cn/news/778562.html

相关文章

红楼梦生僻字笔记

后楼梦里面生僻字很多。 1、牖 所以蓬牖茅椽&#xff0c; 绳床瓦灶&#xff0c;并不足妨我襟怀&#xff1b;况那晨风夕月&#xff0c;阶柳庭花&#xff0c;更觉得润人笔墨。 you&#xff0c;三声&#xff0c;窗户的意思。先秦不说窗&#xff0c;只说牖。贾谊过秦论有“然陈涉&…

红楼梦家谱笔记

红楼梦的家谱看的人头晕&#xff0c;稍稍总结下。 文章目录 贾演(哥哥-宁国府)(另外还有3个兄弟&#xff0c;未承袭&#xff0c;略)贾代化(贾演长子)贾敷(贾代化长子&#xff0c;幼夭)贾敬(贾代化次子)贾珍(贾敬之子)尤氏(贾珍正妻)贾蓉(贾珍之子)秦可卿(贾蓉之妻) 惜春(贾敬之…

红楼梦 (上)

为什么读红楼梦&#xff1f;为什么读古典文学作品&#xff1f;因为时间给了我们最好的筛选。红楼梦是一部经过了历史考验的博大精深的作品。 一面对经典的读者要求 没有读者就没有经典&#xff0c;有怎样的读者就有怎样的经典。经典的价值与内涵要透过读者来阐发&#xff0c;…

谈谈红楼梦(第6-10回)

这次说说红楼梦的第6到第10回. 第6回中写到贾宝玉初试云雨情,刘姥姥一进荣国府.贾宝玉初试云雨情后,宝玉视袭人更比别个不同,袭人待宝玉更为尽心.并不能因为这样的描写而否定红楼梦的伟大.大家应该知道红楼梦还有一个名字叫做<<风月宝鉴>>吧.此话不再多谈.…

我觉得新版红楼梦还是很不错的(转)

我觉得新版红楼梦还是很不错的&#xff01;&#xff01;&#xff01; 首先&#xff0c;我觉得对宋江这个角色的处理就非常好。完全打破了之前宋江对唐僧言听计从的风格。唐僧也不像以前总是跟林黛玉叽叽歪歪&#xff0c;不务正业。包括严守一大战许三多的那场戏也拍的非常到位…

周末读书:《红楼梦》

【周末读书】| 作者/Edison 大家好&#xff0c;我是Edison。 古人曾说“开谈不说红楼梦&#xff0c;读尽诗书也枉然”&#xff0c;刚好最近我爸开始在阅读《红楼梦》&#xff0c;我想起当年看了两遍《红楼梦》原著和一遍87版《红楼梦》电视剧的场景。本文是我首发于2018年的一篇…

解决:yarn 无法加载文件 “C:\Users\admin\AppData\Roaming\npm\yarn.ps1,因为在此系统上禁止运行脚本“ 的问题

1、问题描述&#xff1a; 其一、报错的整体代码为&#xff1a; yarn : 无法加载文件 C:\Users\admin\AppData\Roaming\npm\yarn.ps1&#xff0c;因为在此系统上禁止运行脚本 // 整体的报错代码为 &#xff1a; yarn : 无法加载文件 C:\Users\admin\AppData\Roaming\npm\yar…

读《红楼梦》有感

趁着在家这一段时间&#xff0c;把我期待已久的红楼梦看了一遍&#xff0c;以前感觉红楼梦有什么好看的&#xff0c;不就是一个男的和一群女的故事嘛&#xff0c;然后听了朋友&#xff0c;老师的讲解发现红楼梦中有很多值得学习的东西。 这不仅仅是一个男的和一群女的故事&…