Python错误 UnicodeEncodeError: 'UCS-2' codec can't encode characters in position 73-73:

news/2024/11/30 15:22:40/

Python爬取页面时遇到的字符编码问题

在利用Python爬取微博页面时,遇到错误UnicodeEncodeError: ‘UCS-2’ codec can’t encode characters in position 73-73: Non-BMP character not supported in Tk,在网上找了一些资料,但都比较复杂,现我已成功解决该问题,且较简单,故通过我的实例分享经验。

原代码

from urllib.parse import urlencode
from pyquery import PyQuery as pqimport requests
base_url = 'https://m.weibo.cn/api/container/getindex?'headers = {'Host': 'm.weibo.cn','Referer': 'https://m.weibo.cn/u/3908167020','User-Agent': 'Mozilla/5.0 (Macintosh;Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/52.0.2743.116 Safari/537.36','X-Requested-With': 'XMLHttpRequest',}def get_page(page):params = {'type': 'uid','value': '1989519725','containerid': '1076031989519725','page': page}url = base_url + urlencode(params)try:response = requests.get(url, headers = headers)if response.status_code == 200:return response.json()except requests.ConnectionError as e:print('Error',e.args)def parse_page(json):if json:items = json.get('data').get('cards')for item in items:item = item.get('mblog')weibo = {}weibo['id'] = item.get('id')weibo['text'] = pq(item.get('text')).text()weibo['comments'] = item.get('comments_count')weibo['reposts'] = item.get('reposts_count')yield weiboif __name__ == '__main__':for page in range(1,11):json = get_page(page)results = parse_page(json)for result in results:print(result)

运行后显示错误:
在这里插入图片描述
出现错误的原因是:
我们爬取的HTML页面中包含了Unicode下无法识别的字符(这是我自己的理解,如果理解有误,欢迎指正!)
解决办法是:

  1. import sys(新代码第6行)
  2. 定义non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode + 1), 0xfffd)(新代码第8行)
  3. 对要输出的结果(本实例中为result)translate,即在输出result之前,增加语句result = str(result).translate(non_bmp_map)(新代码第55行)

新代码

from urllib.parse import urlencode
from pyquery import PyQuery as pqimport requestsimport sysnon_bmp_map = dict.fromkeys(range(0x10000,sys.maxunicode + 1),0xfffd)base_url = 'https://m.weibo.cn/api/container/getindex?'headers = {'Host': 'm.weibo.cn','Referer': 'https://m.weibo.cn/u/3908167020','User-Agent': 'Mozilla/5.0 (Macintosh;Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/52.0.2743.116 Safari/537.36','X-Requested-With': 'XMLHttpRequest',}def get_page(page):params = {'type': 'uid','value': '1989519725','containerid': '1076031989519725','page': page}url = base_url + urlencode(params)try:response = requests.get(url, headers = headers)if response.status_code == 200:return response.json()except requests.ConnectionError as e:print('Error',e.args)def parse_page(json):if json:items = json.get('data').get('cards')for item in items:item = item.get('mblog')weibo = {}weibo['id'] = item.get('id')weibo['text'] = pq(item.get('text')).text()weibo['comments'] = item.get('comments_count')weibo['reposts'] = item.get('reposts_count')yield weiboif __name__ == '__main__':for page in range(1,11):json = get_page(page)results = parse_page(json)for result in results:result = str(result).translate(non_bmp_map)print(result)

这样问题就完美解决啦!

参考资料来源

1: https://stackoverflow.com/questions/32442608/ucs-2-codec-cant-encode-characters-in-position-1050-1050.
2: https://www.2cto.com/kf/201805/748337.html.
3: https://blog.csdn.net/qq_16272049/article/details/79492020.


http://www.ppmy.cn/news/534230.html

相关文章

解决mysql出现“the table is full”的问题

今天中午收到mysql错误日志监控发来的警报,错误日志如下: 101209 13:13:32 [ERROR] /usr/local/mysql/bin/mysqld: The table test_1291870945841162 is full 101209 13:13:32 [ERROR] /usr/local/mysql/bin/mysqld: The table test_1291870945841162 is…

LeedCode刷题笔记-替换所有的问号

LeedCode刷题笔记-替换所有的问号 题目描述 给你一个仅包含小写英文字母和 ‘?’ 字符的字符串 s,请你将所有的 ‘?’ 转换为若干小写字母,使最终的字符串不包含任何 连续重复 的字符。 注意:你 不能 修改非 ‘?’ 字符。 题目测试用例…

多线程调用epoll_wait()的线程安全问题分析 http://blog.csdn.net/lmh12506/article/details/7836827

http://blog.csdn.net/lmh12506/article/details/7836827 多线程调用epoll_wait()的线程安全问题分析 2012-08-06 20:57 3041人阅读 评论(1) 收藏 举报 多线程 socket thread 工作 目录(?)[] 多线程epoll_wait后得到的活跃fd是线程安全的吗? 或者说多个线程在…

海量数据处理常用思路和方法 http://blog.csdn.net/lmh12506/article/details/7563266

海量数据处理常用思路和方法 分类: 数据结构与算法 2012-05-13 23:07 655人阅读 评论(0) 收藏 举报 filter 扩展 文档 mapreduce 存储 分布式计算 大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海量数据的公…

poll函数源码详细分析 http://blog.csdn.net/lmh12506/article/details/7556297

废话不多说,相信看这篇文章的都用过poll和epoll,先来看poll系统调用的源码。 [cpp] view plain copy print ? asmlinkage long sys_poll(struct pollfd __user * ufds, unsigned int nfds, long timeout) { struct poll_wqueues table; int fdco…

epoll_create函数实现源码分析 http://blog.csdn.net/lmh12506/article/details/7556188

http://blog.csdn.net/lmh12506/article/details/7556188 2012-05-11 10:03 2370人阅读 评论(0) 收藏 举报 file descriptor structure struct semaphore list 昨晚分析了poll,通过代码的阅读可以发现,poll操作有很多可以优化的地方。epoll是eventpo…

[FAQ12506]如何实现壁纸不随着workspace的滑动而滑动

[DESCRIPTION] 如何实现壁纸不随着workspace的滑动而滑动 [SOLUTION] 在Workspace.java中把调用updateOffset的地方全部注释掉。

[FAQ12506] 如何实现壁纸不随着workspace的滑动而滑动

[DESCRIPTION] 如何实现壁纸不随着workspace的滑动而滑动 [SOLUTION] 在Workspace.java中把调用updateOffset的地方全部注释掉。