python爬虫或web中出现\\u4e00unicode字符串的原因

news/2024/10/18 8:32:27/

我们的python在爬虫或web中,默认是不需要我们获取进行编码和解码的
因为框架自动帮我们编码然后返回给我们,但是一般用的都是UTF-8,如果这个数据的编码方式是unicode-escape怎么办呢,那么我们就会获得一堆类似于"\u4e00"这样的字符串

解决办法:
unicode_str = '\\u4e00'
str_a = unicode_str.encode().decode("unicode-escape")
# 此时stra就是我们的中文字符了
# 先用UTF-8编码方式将其转换回字节码,然后再用正确的对应的编码转回来

如果我们获得的是’\u4e00’这样的字符串,那么不用转换,存储的时候以utf-8存储即可

with open('test.txt','w',encoding='utf-8') as f:f.write("\u4e00")

http://www.ppmy.cn/news/431904.html

相关文章

Atmega32U4烧写Bootloader

熔丝位设置 leonardo.bootloader.low_fuses0xff leonardo.bootloader.high_fuses0xd8 leonardo.bootloader.extended_fuses0xcb leonardo.bootloader.unlock_bits0x3F leonardo.bootloader.filecaterina/Caterina-Leonardo.hex导入Flash 位置在 D:\Arduino\hardware\arduino…

开鸿智谷公司Niobe U4开发板正式合入OpenHarmony主干

近期,拓维信息旗下湖南开鸿智谷数字产业发展有限公司(简称“开鸿智谷公司”)基于ESP32系列芯片打造的Niobe U4开发板正式合入OpenAtom OpenHarmony(简称“OpenHarmony”)社区主干。本次合入的代码版本为单核代码&#…

\\u559c\\u6b22\\u4e00\\u4e2a\\u4eba unicode编码问题

import jsonfrom idna import unicode# 方法1: json.loads() msg1 {"msg": "\\u559c\\u6b22\\u4e00\\u4e2a\\u4eba"} # print(str()) print(json.loads(msg1))# 方法2: 或者直接对value进行unicode编码 msg2 {"msg": "\\u8be5\\u7528\\u6…

正则表达式之匹配中文字符串:[/u4e00-/u9fa5]

转载之:https://blog.csdn.net/ye1992/article/details/25286539 这里是几个主要非英文语系字符范围(google上找到的): 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号…

ATmega32U4 芯片 时钟研究

参考手册《ATMega32U4.pdf》 C:\WinAVR-20100110\doc\avr-libc\avr-libc-user-manual.pdf C:\WinAVR-20100110\doc\avr-libc\avr-libc-user-manual\ 下面的网页 clock_prescale_set() 函数在 C:\WinAVR-20100110\avr\include\avr\power.h中定义 1、USB 时钟 《ATMega32U4.…

怎么下载网页上的视频m3u4

第一怎么寻找视频的播放源网址,也就是视频的api接口 首先打开你的视频网站, 然后按F12(打开开发者模式)在右上角选着网络,就可以查看该视频的网络请求了 然后寻找一个请求以m3u8结尾或者MP4结尾的的请求 我们这里是m…

Python爬虫采集,\u4e2d\u4ecb\u7f51 网站排行榜, 样本数量:58341

今天要实现的是《爬虫120例》中的第28例,采用的技术方案为多线程+队列。 目标站点分析 本次要抓取的目标站点为:\u4e2d\u4ecb\u7f51,这个网站提供了网站排行榜、互联网网站排行榜、中文网站排行榜等数据。 网站展示的样本数据量是 :58341。 采集页面地址为 Python爬虫地…

ATmega32U4 芯片介绍 相关开源应用

网址: https://www.microchip.com/wwwproducts/en/atmega32u4 Summary The low-power Microchip 8-bit AVR RISC-based microcontroller featuring 32KB self-programming flash program memory, 2.5KB SRAM, 1KB EEPROM, USB 2.0 full-speed/low speed device, …