python3如何提取汉字

server/2024/10/18 9:24:25/

采用正则表达式的方法对字符串进行处理。

str1 = "{我%$是,《速$@.度\发》中 /国、人"

(1)提取汉字

汉字的范围为”\u4e00-\u9fa5“,这个是用Unicode表示的。

import re
res1 = ''.join(re.findall('[\u4e00-\u9fa5]',str1))
print(res1)

输出为:

‘我是速度发中国人’

(2)去除所有符号。采用清理数据,仅保留字母、数字、中文的方法。

import re
res1 = re.sub("[^a-zA-Z0-9\u4e00-\u9fa5]", '', str1) 
print(res1)

输出为:

‘我是速度发中国人’

http://www.ppmy.cn/server/7500.html

相关文章

第3章 决策树

决策树经常处理分类问题,近来的调查表明决策树也是经常使用的数据挖掘算法。 决策树的流程图: 长方形代表判断模块(decision block),椭圆形代表中止模块(terminating block),表示已经得出结论,可以中止运行。 从判断模块引出左右箭…

算法训练营第44天|完全背包 LeetCode 518.零钱兑换Ⅱ 337.组合总和Ⅱ

完全背包 题目链接&#xff1a; 完全背包 代码&#xff1a; #include<iostream> #include<vector> using namespace std;void test(vector<int>weight,vector<int>value,int bagweight){vector<int>dp(bagweight1,0);for(int i0;i<weight.…

微信小程序实现预约生成二维码

业务需求&#xff1a;点击预约按钮即可生成二维码凭码入校参观~ 一.创建页面 如下是博主自己写的wxml&#xff1a; <swiper indicator-dots indicator-color"white" indicator-active-color"blue" autoplay interval"2000" circular > &…

tcp网络编程(基础)

目录 一.编程前的一些基础 二.tcp网络编程 1.一个服务器只能有一个客户端连接&#xff08;下面代码&#xff09; Socket.hpp TcpServer.hpp TcpServerMain.cc TcpClientMain.cc 2.一个服务器可以有多个客户端连接&#xff08;多线程&#xff09; 看这篇文章前&#xff0c…

03-JAVA设计模式-中介者模式

中介者模式 什么是中介者模式 中介者模式&#xff08;Mediator Pattern&#xff09;是一种行为设计模式&#xff0c;用于减少对象之间的直接依赖关系&#xff0c;降低它们之间的耦合度&#xff0c;并使得一个对象改变时&#xff0c;所有依赖于它的对象都得到通知并自动更新。…

初识ansible服务剧本playbook及剧本编写实例

目录 1、playbook剧本文件概念 1.1 剧本文件的结构由4部分组成 2、配置实例 实例1-编写一个实现批量安装mariadb数据库的剧本 实例2-编写一个创建一个目录/backup,并在目录喜爱创建01.txt文件的剧本 实例3-编写一个添加定时同步时间的定时任务剧本 错误反思 1、playbook剧…

[渗透测试学习] TwoMillion-HackTheBox

TwoMillion-HackTheBox 信息搜集 nmap扫描一下 nmap -sV -v 10.10.11.221扫描结果 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.1 (Ubuntu Linux; protocol 2.0) 80/tcp open http nginx 3851/tcp f…

笔记强训 || NC313 两个数组的交集 || 哈希表/去重+排序+遍历查找+插入ret

题目解析 两个不同整数数组&#xff0c;其中两个数组均是无序且有多个重复项。找到两个数组中的公共元素并返回。此时&#xff0c;需要注意&#xff0c;返回值中并没有重复项&#xff0c;也就是如果数据均一致&#xff0c;返回一个数字即可。 算法原理 思路 就是将一个数组…