python机器学习8--自然语言处理(1)

news/2024/9/23 0:20:07/

1.基本定义:

语义:就是一句话的重点是什么。

自定词汇:因为语言、文字太多,自定和处理你所关心的重点词汇。

简体转繁体代码

from opencc import OpenCCtext1 = "我去过清华大学"
openCC = OpenCC('s2t')
line = openCC.convert(text1)
print(" "+text1)  # 打印原文本
print("s2t;"+line)  # 打印转换后的文本

结果如下:

 2.中文分词断词工具

        在中文分词的处理方面,Python有几个第三方的程序pymmseg、smallseg和jieba,本节将介绍的是jieba。这个需要先安装。

pip install jieba

        原理: jieba中文分词所使用的算法是通过Trie Tree(又称前缀树或字典树)结构去创建句子,根据文字所有可能成词的情况,通过动态规划算法找出最大概率的路径,这个路径就是基于词频的最大断词结果。对于字典词库中不存在的词,则使用HMM(Hidden Markov Model,隐马尔可夫模型)及Viterbi算法来辨识出来。

一个小demo

import jieba
text1="我去过清华大学"
test2="小明来到了行研大厦"
seg_list=jieba.cut(text1,cut_all=True,HMM=False)
print("Full Mode:"+"/".join(seg_list))
seg_list=jieba.cut(text1,cut_all=False,HMM=True)
print("Default Mode:"+"/".join(seg_list))
print(",".join(jieba.cut(test2,HMM=True)))
print(",".join(jieba.cut(test2,HMM=False)))
print(",".join(jieba.cut(test2)))
print(",".join(jieba.cut_for_search(test2)))

运行结果

上面的几种模式:

        Full Mode(全模式):试图将句子最精确地切开,适合文本分析,输出的是所有可能的分词组合,比如清华大学,会被分成:清华、清华大学、华大、大学。

        Default Mode(精确模型):把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义,比如清华大学,只会输出清华大学。

        jieba.cut_for_search(搜索引擎模式):在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

注意有些词分割不正确,可以自己进行设置jieba.load_userdict("userdict.txt")这样再次通过jieba.cut(text)切割后就会达到自己的预期了。取得词性jieba.posseg.cut(text)

3.使用TF-IDF算法的关键词计算

 jieba.analyse.extract_tags(content, topK = 20, withWeight = True, allowPOS=( ))

参数如下:

· content:待处理的文字。

· topK:返回关键词的数量,重要性权重TF-IDF从高到低排序,如topK=20,就是回传20个最重要的分词。

· withWeight:设置为True或False,即是否返回每个关键词的权重TF-IDF。

· allowPOS:词性过滤,为空表示不过滤。词性,如同jieba.posseg.cut所输出的内容,即n是名词、v是动词。

        关键词的权重(TF-IDF)也就是这个关键词在这篇文章中所出现的比重。有很多不同的数学公式可以用来计算TF-IDF,具体公式不在详细介绍。

import sys
from os import path
import jieba
import jieba.analyse# 取得现在的路径
d = path.dirname(__file__)# 读取文本
with open(path.join(d, "C:\\Users\\nsy\\Desktop\\test.txt"), 'r', encoding='utf-8') as f:text = f.read()# 去除不要的文字
text = text.replace("", "")  # 这里假设您要替换的是一个特定的字符串,但原代码中是空的
text = text.replace("「", "")
text = text.replace("」", "")
text = text.replace(",", "")
text = text.replace(" ", "")# 使用jieba进行分词
print('/'.join(jieba.cut(text)))# 开启HMM做分词动作
# 样例1使用自定义字典
jieba.load_userdict(path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt"))  # 加载自定义字典# 再次使用自定义字典进行分词
print('/'.join(jieba.cut(text)))# 样例2取得词性
words = jieba.posseg.cut(text)
for word, flag in words:print('%s, %s' % (word, flag))  # 显示切割的词语和词性# 样例3和样例4取得关键字
if sys.version_info > (3, 0):content = text
else:content = text.decode('utf-8')keywords = jieba.analyse.extract_tags(content, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))# 访问捕获结果
for item in keywords:print('%s=%f' % (item[0], item[1]))  # 分别为关键词和相应的权重print("程序执行完毕")

运行结果:

 4.自定分词

        jieba.load_userdict,在jieba之中,还有另一个类似的函数jieba.suggest_freq。

from os import path
import jieba
import jieba.analyse
d=path.dirname(__file__)
text="今天学习好累,还没有效率"
text=text.replace(",","")
print('/'.join(jieba.cut(text)))
jieba.suggest_freq('还没有',True)
print('/'.join(jieba.cut(text)))

 取出断词位置

jieba.tokenize(文字)
import sys
from os import path
import jieba# 获取脚本文件的目录
d = path.dirname(__file__)
# 定义自定义词典的路径
userdict_path = path.join(d, "C:\\Users\\nsy\\Desktop\\userdict.txt.txt")
# 加载自定义词典
jieba.load_userdict(userdict_path)# 定义要分词的文本
content = "今天学习好累,在家还没有效率"# 使用自定义词典进行精确模式分词
print('default' + '-'*40)
result = jieba.cut(content, use_paddle=False)  # 精确模式
for word in result:print(word)# 使用自定义词典进行搜索引擎模式分词
print('tokenize search' + '-'*40)
result = jieba.cut_for_search(content)  # 搜索引擎模式
for word in result:print(word)


http://www.ppmy.cn/news/1500083.html

相关文章

ffmpeg解析pcm文件进行播放

初始化音频子系统是使用 SDL 播放音频之前的一个必要步骤。这确保了 SDL 能够正确地配置和使用音频硬件。如果你不进行初始化,试图使用音频功能可能会导致未定义的行为或错误。 为什么需要初始化音频子系统? 1.资源分配: SDL 需要为音频设备分…

Oracle对比两表数据的不一致

MINUS 基本语法如下 [SQL 语句 1] MINUS [SQL 语句 2];举个例子: select 1 from dual minus select 2 from dual--运行结果 1-------------------------------- select 2 from dual minus select 1 from dual--运行结果 2所以,如果想找所有不一致的&a…

springboot3-web-questions-分析

系列文章目录 文章目录 目录 系列文章目录 文章目录 前言 一、问题案例 1、maven项目compile时候出现告警warn 2、java文件打包然后在命令行中运行java会找不到主类 3、程序找不到数据库驱动和配置实例 4、springboot和mybatis-plus版本不兼容导致 5、springboot项目启动的解释…

足浴行业押金原路退回怎么开通?

一手机版和电脑版差别 手机版押金管理的优点: 1. 便携性:管理人员可以随时随地通过手机查看和处理押金相关事务,不受地点限制。例如,当不在店内时,仍能及时了解押金的收支情况,对突发问题进行处理。 2. 实…

【电源专题】结合锂电池相关资料和华为手机聊聊锂离子电池使用条件限制

在文章:【电源专题】锂电池的特点和工作原理 中我们讲到了一些关于锂电池种类和特点、工作原理等。但是对于锂离子电池使用条件限制却没有介绍,本文基于手机产商 锂离子电池使用条件-电池性能和应用介绍 | 华为官网 (huawei.com)提供的介绍文档再次深入学习锂离子电池的一些特…

麒麟桌面操作系统上配置Samba

原文链接:麒麟桌面操作系统上配置Samba Hello,大家好啊!今天给大家带来一篇关于在麒麟桌面操作系统上配置Samba的文章。Samba是一种免费的软件,实现了SMB/CIFS网络协议,使得Linux和Windows系统之间可以共享文件和打印机…

Python学习计划——7.2数据可视化

数据可视化是数据分析的重要组成部分,通过图表和图形将数据直观地展示出来,帮助我们发现数据中的模式和趋势。Python中常用的数据可视化库有matplotlib和seaborn。以下是对这些库的详细讲解及可运行的Python案例。 1. matplotlib 库 matplotlib 是一个…

华为网络模拟器eNSP安装部署教程

eNSP是图形化网络仿真平台,该平台通过对真实网络设备的仿真模拟,帮助广大ICT从业者和客户快速熟悉华为数通系列产品,了解并掌握相关产品的操作和配置、提升对企业ICT网络的规划、建设、运维能力,从而帮助企业构建更高效&#xff0…