使用pycharm编写python爬虫时出现乱码的解决方案UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f601‘ in

news/2025/2/12 20:12:21/

一杯茶,一首歌,一个bug改一天。
今天在学习python多线程时,遇到的了乱码的情况,让我们先看一看是什么情况的吧
在这样一段代码中:

response = requests.get(url_queue.get(), headers=headers)
info = response.text
print(info)

报出如下错误:

UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f601' in position 36140: illegal multibyte sequence

在这里插入图片描述

百度了很久,发现都是针对读文件的方式解决的,不过通过大量的帖子,找到了一种解决方式:对我们的输出进行转码,具体代码编写如下:

response = requests.get(url_queue.get(), headers=headers)info = response.textprint(info.encode('UTF-8').decode('UTF-8'))

再次进行打印,发现还是出错,报错代码如下:

UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f92d' in position 18765: illegal multibyte sequence

当然,这次的报错与刚刚是一样的,不过别着急,等我慢慢解释,
在大量百度后,可以的得出一个结论,就是:我们要爬取的页面出现了奇奇怪怪的字符,比如,😊等其他表情。
此时,我打开了要爬取的页面,果然看到了有类似的奇怪字符,
在这里插入图片描述

不过,一个优秀的程序员是不会轻易放弃的,继续百度,
在谋篇博客中解释到cmd命令窗口的编码与IDLE的编码有些出入,这时我就联想到是不是我的pycharm编码出现了问题,
紧接着我就打开了pycharm的编码格式,果然看到了如下结果:
在这里插入图片描述

pycharm的编码格式出现了问题,随后将其修改为UTF-8
再一次运行就可以了:
在这里插入图片描述


http://www.ppmy.cn/news/167624.html

相关文章

signature=e7411d00c74ac359f20083a015dc6ea9,MS12-020:遠端桌面的弱點可能會允許遠端程式碼執行:2012 年 3 月 13 日...

Publisher 檔名 Sha1 SHA2 windowsxp-kb2621440-x86-ara.exe 632DF74CDC725EFD6A48AEE5AD77548335E8FF18 6A43662B5E10937A5773051E73295872E5896FCC087D232BBDF1710C6F856403 windowsxp-kb2621440-x86-chs.exe B4EABFFDF2F41421FFCA17BE174B84D3119DA93A 3E81F24F2B926EAA6E5E…

安装配置docker

本文是在Centos7环境下安装docker,讲三部分:安装docker、创建容器、docker常用命令 一. 安装docker 1、Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。 通过 uname -r 命令查…

linear-gradient的用法详解

文章目录 一、介绍二、使用技巧2.1 方格背景2.2 棋盘效果 linear-gradient是css3的一个属性,功能强大,但是因为使用的灵活性,让没接触过的人感觉不好下手,下面来一起学习一下: 一、介绍 MDN介绍文档 linear-gradient …

Android 设备Id 唯一不重复,Redmi

1。(唯一)不重复类: package com.xxx.xxx.util;import android.annotation.SuppressLint; import android.content.Context; import android.os.Build; import android.provider.Settings; import android.telephony.TelephonyManager;impor…

linux搭建pptp脚本,Linux搭建PPtp

先查看mppe模块是否加载:lsmod| grep -i ppp 如果有 ppp_mppe 39881 2 ppp_generic 62561 8 ppp_synctty,ppp_async,ppp_deflate,ppp_mppe 说明模块加载成功 然后安装pptp,编译./configure –prefix=/usr/local/pptpd;make;make install 先在/usr/local/pptp目录建etc目录 之后…

2021-07-19

这里写自定义目录标题 爬虫 大众点评 详细先去瞅瞅接下来的受害者接下来进入正题初次交手,见招拆招问题一:不登录只能看到第一页问题二:获取的信息除了店名,其他的都进行了加密,抓取后还得解密 字体解密程序编写获取ht…

树突状细胞(DC细胞)特征及应用进展综述

树突状细胞( dentritic cell,DC) 最初由 Steinman 和 Cohn 于 1973 年在小鼠脾脏中发现[1],是迄今为止功 能最强大的抗原呈递细胞,因成熟时有许多树状或伪 足样突起而得名。DC 常被称为“天然佐剂”,已成为…

卸载Docker

一、准备工作: 1.杀死docker有关的容器: docker kill $(docker ps -a -q)2.删除所有docker容器: docker rm $(docker ps -a -q)3.删除所有docker镜像: docker rmi $(docker images -q)4.停止 docker 服务: system…