Python词云

news/2024/11/8 2:40:17/

词云图wordcloud

1.安装第三方库

j i e b a 库、 m a t p l o t l i b 、 w o r d c l o u d 库 jieba库、matplotlib、wordcloud库 jieba库、matplotlibwordcloud
民图灵机

2.过程

1.使用 j i e b a jieba jieba 库对数据进行分词整理,转为 t x t txt txt文件,转变为以空格分隔的词语字符串 s t r i n g string string
2.调用 w o r d c o l u d wordcolud wordcolud等函数绘制。

3.wordcloud的常用方法函数参数

参数:

1. f o n t _ p a t h : s t r i n g font\_path : string font_path:string : 字体路径,格式:字体路径+后缀名,
C : \ w i n d o w s \ F o n t \ w h i t e . t t f C:\backslash windows\backslash Font \backslash white.ttf C:\windows\Font\white.ttf
2. w i d t h : i n t ( d e f a u l t = 400 ) width : int(default=400) width:int(default=400) : 输出的画布宽度
3. h e i g h t : i n t ( d e f a u l t = 200 ) height : int (default =200) height:int(default=200) : 输出的画布高度
4. p r e f e r _ h o r i z o n t a l : f l o a t ( d e f a u l t = 0.90 ) prefer\_horizontal : float(default=0.90) prefer_horizontal:float(default=0.90) : 词语水平方向排版出现的频率,垂直方向做差。
5. s c a l e : f l o a t ( d e f a u l t = 1 ) scale : float(default=1) scale:float(default=1) : 按照比例放大画布,如设置 s c a l e = 2 scale=2 scale=2,则长宽都是原来的 2 2 2倍。
6. m i n _ f o n t _ s i z e : i n t ( d e f a u l t = 4 ) min\_font\_size : int(default=4) min_font_size:int(default=4) : 显示的最小字体的大小。
7. m a x _ w o r d s : i n t ( d e f a u l t = 200 ) max\_words : int(default=200) max_words:int(default=200) : 显示的词的最大个数。
8. b a c k g r o u n d _ c o l o r : ( d e f a u l t = ′ b l a c k ′ ) background\_color : (default='black') background_color:(default=black) :背景颜色。
9. m a x _ f o n t _ s i z e : i n t ( d e f a u l t = N o n e ) max\_font\_size : int(default=None) max_font_size:int(default=None) : 显示的最大字体的大小。
10. m a s k : n p . a r r a y 、 N o n e mask : np.array 、None mask:np.arrayNone :参数为空,默认词云形状为长方形。

函数:

1. g e n e r a t e _ f r o m _ t e x t ( t e x t ) generate\_from\_text(text) generate_from_text(text):根据文本生成词云。
2. g e n e r a t e ( t e x t ) generate(text) generate(text) : 根据文本生成词云。
3. g e n e r a t e _ f r o m _ f r e q u e n c i e s ( f r e q u e n c i e s [ , . . . ] ) generate\_from\_frequencies(frequencies[, ...]) generate_from_frequencies(frequencies[,...]) : 根据词频生成词云。
4. t o _ f i l e ( f i l e n a m e ) to\_file(filename) to_file(filename) : 输出到文件。

def generate(self, text):"""Generate wordcloud from text.The input "text" is expected to be a natural text. If you pass a sortedlist of words, words will appear in your output twice. To remove thisduplication, set ``collocations=False``.Alias to generate_from_text.Calls process_text and generate_from_frequencies.Returns-------self"""return self.generate_from_text(text)def generate_from_text(self, text):"""Generate wordcloud from text.The input "text" is expected to be a natural text. If you pass a sortedlist of words, words will appear in your output twice. To remove thisduplication, set ``collocations=False``.Calls process_text and generate_from_frequencies...versionchanged:: 1.2.2Argument of generate_from_frequencies() is not return ofprocess_text() any more.Returns-------self"""words = self.process_text(text)self.generate_from_frequencies(words)return self

调用过程:
g e n e r a t e ( s e l f , t e x t ) ⇒ s e l f . g e n e r a t e _ f r o m _ t e x t ( t e x t ) ⇒ w o r d = s e l f . p r o c e s s _ t e x t s e l f . g e n e r a t e _ f r o m _ t e x t ( w o r d ) generate(self, text) \Rightarrow self.generate\_from\_text(text) \Rightarrow \\word=self.process\_text \\ self.generate\_from\_text(word) generate(self,text)self.generate_from_text(text)word=self.process_textself.generate_from_text(word)

实例

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/45965.html

相关文章

如何使用数字示波器

本文介绍以鼎阳SIGLENT SDS1122E数字示波器为例。 带了一根电源线;两根信号线,每根信号线都有几个小配件,如下所示: 使用概述 我们都知道万用表(又称欧姆表)是工程师最常用的调试电路的工具,但万…

CC2642的GGS使用笔记

一、前言 我们了解BLE的GATT之前需要了解一些基本的概念: (1)Profile,字面意思简介、概述、形象印象、轮廓、配置文件,在BLE中,我们可能把它理解成配置文件较好,Profile有一些是BLE SIG规定的,有…

Redis 实现限流

Redis 实现限流的三种方式 面对越来越多的高并发场景,限流显示的尤为重要。最近在网上看到几个demo,做一下记录吧。 限流有许多种实现的方式,Redis具有很强大的功能,我用Redis实践了三种的实现方式,可以较为简单的实…

Python接口自动化测试实战详解

接口自动化测试是指通过编写程序来模拟用户的行为,对接口进行自动化测试。Python是一种流行的编程语言,它在接口自动化测试中得到了广泛应用。下面详细介绍Python接口自动化测试实战。 1、接口自动化测试框架 在Python接口自动化测试中,我们…

《MCU》专栏完整目录

MCU专栏完整目录 专栏状态:持续更新中 文章目录 一、 电路二、单片机2.1 GD322.2 STM322.3 51单片机2.4 ZigBee2.5 Arduino 三、Linux四、RTOS五、其他 一、 电路 1、开关电路:单片机引脚驱动电路(负载开关电路)点击进入 2、二极…

什么是机器学习?

目录 简介 机器学习可以做什么 机器学习未来的趋势 总结 简介 机器学习是一种人工智能领域中的技术,其主要目的是让计算机能够自动进行模式识别、数据分析和预测。 机器学习的起源可以追溯到20世纪50年代,当时美国的Arthur Samuel在一篇论文中提出了相关…

Ubuntu上搭建网站【建立数据隧道,降低开支】

上篇:Ubuntu搭建web站点并发布公网访问 目录 1.安装WordPress 2.创建WordPress数据库 3.安装相对URL插件 4.内网穿透将网站发布上线 1.命令行方式: 2.图形化操作方式 5.图书推荐 cpolar官网 1.安装WordPress 在前面的介绍中,我们为大…

简化你的代码,提高生产力:这10个Lambda表达式必须掌握

前言 Lambda表达式是一种在现代编程语言中越来越常见的特性,可以简化代码、提高生产力。这篇文章将介绍10个必须掌握的Lambda表达式,这些表达式涵盖了在实际编程中经常用到的常见场景,例如列表操作、函数组合、条件筛选等。通过学习这些Lambd…