Python jieba 中文分词

news/2024/11/28 11:52:55/

jieba库主要有三种方法

1 lcut(data) 精确模式

2 lcut(data,cut_all=True) 全模式

3 lcut_for_search(data) 搜索引擎模式

import jieba
txt = "花半开最美,情留白最浓,懂得给生命留白,亦是一种生活的智慧。"
modle1 =jieba.lcut(txt)
print(modle1)
modle2 =jieba.lcut(txt,cut_all=True)
print(modle2)
modle3 =jieba.lcut_for_search(txt)
print(modle3)

打印结果

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

['花', '半开', '最美', ',', '情', '留白', '最', '浓', ',', '懂得', '给', '生命', '留白', ',', '亦', '是', '一种', '生活', '的', '智慧', '。']

有时候分隔的并不是我们想要的如下

import jieba
txt ="欧阳娜娜真的很漂亮"
modle1 =jieba.lcut(txt)
print(modle1)

打印的结果

['欧阳', '娜娜', '真的', '很漂亮']

这里想把欧阳娜娜放在一起,这个时候就需要新增词汇使用add_word如下

import jieba
txt ="欧阳娜娜真的很漂亮"
# 新增词语
jieba.add_word("欧阳娜娜")
modle1 =jieba.lcut(txt)
print(modle1)

打印结果:

['欧阳娜娜', '真的', '很漂亮']


http://www.ppmy.cn/news/10902.html

相关文章

Apache APISIX Ingress 1.6 正式发布!

距离上一个版本 v1.5 发布,已经过了 3 个月,我们很高兴地宣布 Apache APISIX Ingress v1.6 正式发布! 在该版本中,共有 29 位贡献者 参与代码提交,其中 17 位是新晋贡献者 ,感谢大家的支持和参与&#xff…

你的电路是抄来的还是算出来的?

在你看这篇文章之前,我想提出几点说明: (1)最近在看拉扎维的书,写下来这些东西,这也只是我个人在学习过程中的一点总结,有什么观点大家可以相互交流;(2)不断的…

C语言1(基础知识)

C语言语法 -基础语法&#xff08;在选择循环语句处截止&#xff09; 1.第一个helloworld程序的解读 #include <stdio.h>int main() {printf("Hello World!");return 0; }我们的C语言程序入口点就是main函数 然后我们看到&#xff0c;如果我们需要打印一段话…

Python制做一个电脑通知小工具,再也不怕忘记事情拉~

前言 嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ Windows不是有个消息通知功能&#xff0c;挺喜欢这个功能的&#xff0c; 但是不太方便使用&#xff0c;也懒得去研究&#xff0c; 于是准备用Python自己写一个&#xff0c;通过设定通知的间隔时…

C++类和对象(二)

​​​​​​类和对象&#xff08;一&#xff09; 目录 一. 类的6个默认成员函数 二. 构造函数 1.概念 2.特性 三. 析构函数 1.概念 2.特性 四. 拷贝构造函数 1.概念 2.特征 五. 赋值运算符重载 1.运算符重载 2.赋值运算符重载 3.前置和后置重载 一. …

Python识别屏幕题目并模拟做题

前言 马上就要过年了&#xff0c;有许多小伙伴们本本还没拿到&#xff0c;还在苦苦刷题&#xff0c;一直及格不了&#xff0c;现在&#xff0c;我们用Python模拟做题&#xff0c;看看效果。 环境使用 python 3.9pycharm 模块使用 requestsreselenium谷歌驱动 import reimpor…

Leetcode - 19 - 删除链表的倒数第 N 个结点

19. 删除链表的倒数第 N 个结点 题目描述 给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 示例1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], n 2 输出&#xff1a;[1,2,3,5]示例 2&#xff1a; 输入&#xff1a;head [1],…

Django(14):分页查询

使用Django框架内置模块django.core.paginator中封装的Paginator类Page类进行分页功能实现。其中Paginator是分页器&#xff0c;从分页器中可以得到Page&#xff0c;即分页对象。源码如下&#xff1a; import collections.abc import inspect import warnings from math impor…