使用pycharm编写python爬虫时出现乱码的解决方案UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f601‘ in

使用pycharm编写python爬虫时出现乱码的解决方案UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\U0001f601‘ in

news/2025/2/12 20:12:21/

一杯茶，一首歌，一个bug改一天。
今天在学习python多线程时，遇到的了乱码的情况，让我们先看一看是什么情况的吧
在这样一段代码中：

response = requests.get(url_queue.get(), headers=headers)
info = response.text
print(info)

报出如下错误：

UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f601' in position 36140: illegal multibyte sequence

在这里插入图片描述

百度了很久，发现都是针对读文件的方式解决的，不过通过大量的帖子，找到了一种解决方式：对我们的输出进行转码，具体代码编写如下：

response = requests.get(url_queue.get(), headers=headers)info = response.textprint(info.encode('UTF-8').decode('UTF-8'))

再次进行打印，发现还是出错，报错代码如下：

UnicodeEncodeError: 'gbk' codec can't encode character '\U0001f92d' in position 18765: illegal multibyte sequence

当然，这次的报错与刚刚是一样的，不过别着急，等我慢慢解释，
在大量百度后，可以的得出一个结论，就是：我们要爬取的页面出现了奇奇怪怪的字符，比如，😊等其他表情。
此时，我打开了要爬取的页面，果然看到了有类似的奇怪字符，
在这里插入图片描述

不过，一个优秀的程序员是不会轻易放弃的，继续百度，
在谋篇博客中解释到cmd命令窗口的编码与IDLE的编码有些出入，这时我就联想到是不是我的pycharm编码出现了问题，
紧接着我就打开了pycharm的编码格式，果然看到了如下结果：
在这里插入图片描述

pycharm的编码格式出现了问题，随后将其修改为UTF-8
再一次运行就可以了：
在这里插入图片描述

http://www.ppmy.cn/news/167624.html

相关文章

signature=e7411d00c74ac359f20083a015dc6ea9,MS12-020：遠端桌面的弱點可能會允許遠端程式碼執行：2012 年 3 月 13 日...

signature=e7411d00c74ac359f20083a015dc6ea9,MS12-020：遠端桌面的弱點可能會允許遠端程式碼執行：2012 年 3 月 13 日...

Publisher 檔名 Sha1 SHA2 windowsxp-kb2621440-x86-ara.exe 632DF74CDC725EFD6A48AEE5AD77548335E8FF18 6A43662B5E10937A5773051E73295872E5896FCC087D232BBDF1710C6F856403 windowsxp-kb2621440-x86-chs.exe B4EABFFDF2F41421FFCA17BE174B84D3119DA93A 3E81F24F2B926EAA6E5E…

阅读更多...

安装配置docker

安装配置docker

本文是在Centos7环境下安装docker，讲三部分：安装docker、创建容器、docker常用命令一. 安装docker 1、Docker 要求 CentOS 系统的内核版本高于 3.10 ，查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。通过 uname -r 命令查…

阅读更多...

linear-gradient的用法详解

linear-gradient的用法详解

文章目录一、介绍二、使用技巧2.1 方格背景2.2 棋盘效果 linear-gradient是css3的一个属性，功能强大，但是因为使用的灵活性，让没接触过的人感觉不好下手，下面来一起学习一下： 一、介绍 MDN介绍文档 linear-gradient …

阅读更多...

Android 设备Id 唯一不重复，Redmi

Android 设备Id 唯一不重复，Redmi

1。（唯一）不重复类： package com.xxx.xxx.util;import android.annotation.SuppressLint; import android.content.Context; import android.os.Build; import android.provider.Settings; import android.telephony.TelephonyManager;impor…

阅读更多...

linux搭建pptp脚本,Linux搭建PPtp

linux搭建pptp脚本,Linux搭建PPtp

先查看mppe模块是否加载:lsmod| grep -i ppp 如果有 ppp_mppe 39881 2 ppp_generic 62561 8 ppp_synctty,ppp_async,ppp_deflate,ppp_mppe 说明模块加载成功然后安装pptp,编译./configure –prefix=/usr/local/pptpd;make;make install 先在/usr/local/pptp目录建etc目录之后…

阅读更多...

2021-07-19

2021-07-19

这里写自定义目录标题爬虫大众点评详细先去瞅瞅接下来的受害者接下来进入正题初次交手，见招拆招问题一：不登录只能看到第一页问题二：获取的信息除了店名，其他的都进行了加密，抓取后还得解密字体解密程序编写获取ht…

阅读更多...

树突状细胞（DC细胞）特征及应用进展综述

树突状细胞（DC细胞）特征及应用进展综述

树突状细胞( dentritic cell，DC) 最初由 Steinman 和 Cohn 于 1973 年在小鼠脾脏中发现［1］，是迄今为止功能最强大的抗原呈递细胞，因成熟时有许多树状或伪足样突起而得名。DC 常被称为“天然佐剂”，已成为…

阅读更多...

卸载Docker

卸载Docker

一、准备工作： 1.杀死docker有关的容器： docker kill $(docker ps -a -q)2.删除所有docker容器： docker rm $(docker ps -a -q)3.删除所有docker镜像： docker rmi $(docker images -q)4.停止 docker 服务： system…

阅读更多...

最新文章