Python_re_[\u4e00-\u9fa5]+_提取所有中文文本

news/2024/11/18 18:46:15/

提取中文文本

    • 简介
    • unicode 编码转换
    • re.findall
    • re 中 [] +
    • re.S
    • [\u4e00-\u9fa5]+ 提取中文案例

简介

\u4e00\u9fa5unicode 编码,正好是中文编码开头和结尾对应的数值。

[\u4e00-\u9fa5]+re.findall 中可用来找出文本中所有中文。

unicode 编码转换

>>> '\u4e00'.encode().decode()  #unicode码转换成字符
'一'
>>> '\u9fa5'.encode().decode()
'龥'

re.findall

pic1

>>> import re>>> re.findall(r'[a-z]+', 'which foot or hand fell fastest')
['which', 'foot', 'or', 'hand', 'fell', 'fastest']>>> re.findall(r'[0-9]', 'qfqefqe')
[]

re 中 [] +

[],用于表示一个字符集合。 -,在 [] 中表示字符范围。
pic2
+,对它前面的匹配式重复1到无数次。
pic3

re.S

pic4

[\u4e00-\u9fa5]+ 提取中文案例

>>> myText = '里面有我最宝贵的私家逆袭经验,全都毫无保留分享给你,比如优质书单和阅读方法推荐,理财经验技巧分享,哑巴英语变成英语达人的秘诀、自律长达10年的独门诀窍、连续高效学习工作10个小时的专注技巧…… 我还会每天分享一篇优质成长干货,如果你不甘于平庸,我就在那边等你,陪你一起精进噢~  分享35个超炫酷好玩的网站: 有哪些能玩上一天的网站? 推荐让你能轻松消遣时间的良心app: 你手机最消遣时间的软件是什么? 强烈推荐35个让你颜值爆表的小技巧: 如何在半年内提高颜值?'
>>> cut_text = re.findall('[\u4e00-\u9fa5]+', myText, re.S)
>>> cut_text
['里面有我最宝贵的私家逆袭经验', '全都毫无保留分享给你', '比如优质书单和阅读方法推荐', '理财经验技巧分享', '哑巴英语变成英语达人的秘诀', '自律长达', '年的独门诀窍', '连续高效学习工作', '个小时的专注技巧', '我还会每天分享一篇优质成长干货', '如果你不甘于平庸', '我就在那边等你', '陪你一起精进噢', '分享', '个超炫酷好玩的网站', '有哪些能玩上一天的网站', '推荐让你能轻松消遣时间的良心', '你手机最消遣时间的软件是什么', '强烈推荐', '个让你颜值爆表的小技巧', '如何在半年内提高颜值']
>>> ' '.join(cut_text)
'里面有我最宝贵的私家逆袭经验 全都毫无保留分享给你 比如优质书单和阅读方法推荐 理财经验技巧分享 哑巴英语变成英语达人的秘诀 自律长达 年的独门诀窍 连续高效学习工作 个小时的专注技巧 我还会每天分享一篇优质成长干货 如果你不甘于平庸 我就在那边等你 陪你一起精进噢 分享 个超炫酷好玩的网站 有哪些能玩上一天的网站 推荐让你能轻松消遣时间的良心 你手机最消遣时间的软件是什么 强烈推荐 个让你颜值爆表的小技巧 如何在半年内提高颜值'

http://www.ppmy.cn/news/431889.html

相关文章

atmega32u4-QMK小键盘调试记录

本文根据B站up主 三三三三三文啊 的视频 链接:【机械键盘DIY】真正从零开始 设计制作一款多媒体机械键盘 制作流程为: 一.确定键盘的布局 网站:www.keyboard-layout-editor.com 保存SVG文档and JSON文件,后者用于生成软件键位表。…

oracle u4e00 u9fa5,Oracle 判断汉字 [\u4e00-\u9fa5]

最近由于单位提了一个需求,要判断提供的用户名称里不有全角字符,至少有两个汉字。找了半天,想通过正则表达式来解决,但测试了好久才发现,Oracle的正则函数REGEXP_LIKE 不支持“\un 匹配 n,其中 n 是以四位十六进制数表示的 Unicode 字符”的判断,例如,\u00A9 匹配版权符…

USBISP/USBasp编程器给Atmega32U4下载Arduino bootloader引导程序

用USBISP/USBasp编程器给ATmega32U4下载Arduino bootloader引导程序 ATmega32U4bootloader引导程序是什么引导程序下载接口与连接配置熔丝位与bootloader烧写注意 ATmega32U4 ATmega32U4是一个低功耗Microchip 8位AVR RISC微控制器,具有32KB自编程闪存、2.5KB SRAM、…

atmega32u4与linux,实用:Atmega 32U4 控制电路 持续更新中

Abstract: 这篇文章将会针对 Atmega 32U4 单片机讲解如何将这块芯片集成到自己的项目中。 这样做的好处是可以避免使用外部单片机/Arduino加跳线的不稳定设计,将一个项目的后期作品控制部分和项目本身直接集成到一块PCB上,并精简外围原件以达…

解析java字节码

java字节码划分区域 图中u4、u2等表示的是字节u4就是4个字节u2就是2个字节以此类推 idea查看class的十六进制的方式 看这里 https://blog.csdn.net/weixin_45112292/article/details/115609491开始分析准备解析 其中魔术就是magic它表示的是字节码的开头CAFEBABE这个单词 …

06※、8种基本数据类型

Java中有两大数据类型:基本数据类型、引用类型(String Math ArrayList)【无数种】 ※基本数据类型(8种) --定义一个变量 类型 标识符 java是强类型语言 【兼容的数据才可以赋值到该类型的变量中进行存储】 --byte 字节型 1个字节 8位…

Hibernate框架【一】——HIbernate框架介绍

系列文章目录 Hibernate框架【三】——基本映射——一对一映射 Hibernate框架【四】——基本映射——多对一和一对多映射 Hibernate框架【五】——基本映射——多对多映射 Hibernate框架介绍 系列文章目录前言一、什么是HIbernate框架Hibernate架构图Hibernate提供的核心功能和…

京瓷p5018cdn教程_京瓷P5018cdn驱动-京瓷ECOSYS P5018cdn打印机驱动下载 v7.4.1411官方版-下载啦...

京瓷P5018cdn驱动是为同名打印机设计的一款运行必备软件,当您的打印机出现电脑无法识别的问题的话就说明是缺少驱动导致的,只需来本站下载一个京瓷P5018cdn驱动安装一下就可以解决问题了,需要的朋友可以下载! 京瓷P5018cdn驱动安装教程 1、将打印机和电脑连接起来,双击Set…