python爬虫中遇到“\xb5”、“xa0”等字符时报错编码错误的处理方式

news/2024/11/30 5:57:13/

写python爬虫是遇到编码错误 

报错为:

UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' 

经过多方查找发现 \xa0是html网页源码中的空格

解决方法

替换掉字符 :replace(u'\xa0', u' ')

下面是一些html中的常见符号

chr 

HexCode  

Numeric  

HTML entity 

"

\x22

"

"

&

\x26

&

&

\x3C

<

<

\x3E

>

>

空格

\xA0

 

 

¡

\xA1

¡

¡

¢

\xA2

¢

¢

£

\xA3

£

£

¤

\xA4

¤

¤

¥

\xA5

¥

¥

¦

\xA6

¦

¦

§

\xA7

§

§

¨

\xA8

¨

¨

©

\xA9

©

©

ª

\xAA

ª

ª

«

\xAB

«

«

¬

\xAC

¬

¬

 

\xAD

­

­

®

\xAE

®

®

¯

\xAF

¯

¯

°

\xB0

°

°

±

\xB1

±

±

²

\xB2

²

²

³

\xB3

³

³

´

\xB4

´

´

µ

\xB5

µ

µ

\xB6

¶

¶

·

\xB7

·

·

¸

\xB8

¸

¸

¹

\xB9

¹

¹

º

\xBA

º

º

»

\xBB

»

»

¼

\xBC

¼

¼

½

\xBD

½

½

¾

\xBE

¾

¾

¿

\xBF

¿

¿

×

\xD7

×

×

÷

\xF7

÷

÷

ƒ

\u0192

ƒ

ƒ

ˆ

\u02C6

ˆ

ˆ

˜

\u02DC

˜

˜

\u2002

 

 

\u2003

 

 

\u2009

 

 

 

\u200C

‌

‌

 

\u200D

‍

‍

 

\u200E

‎

‎

 

\u200F

‏

‏

\u2013

–

–

\u2014

—

—

\u2018

‘

‘

\u2019

’

’

\u201A

‚

‚

\u201C

“

“

\u201D

”

”

\u201E

„

„

\u2020

†

†

\u2021

‡

‡

\u2022

•

•

\u2026

…

…

\u2030

‰

‰

\u2032

′

′

\u2033

″

″

\u2039

‹

‹

\u203A

›

›

\u203E

‾

‾

\u2044

⁄

⁄

\u20AC

€

€

\u2111

ℑ

ℑ

?

\u2113

ℓ

 

\u2116

№

 

\u2118

℘

℘

\u211C

ℜ

ℜ

\u2122

™

™

\u2135

ℵ

ℵ

\u2190

←

←

\u2191

↑

↑

\u2192

→

→

\u2193

↓

↓

\u2194

↔

↔

\u21B5

↵

↵

\u21D0

⇐

⇐

\u21D1

⇑

⇑

\u21D2

⇒

⇒

\u21D3

⇓

⇓

\u21D4

⇔

⇔

\u2200

∀

∀

\u2202

∂

∂

\u2203

∃

∃

\u2205

∅

∅

\u2207

∇

∇

\u2208

∈

∈

\u2209

∉

∉

\u220B

∋

∋

\u220F

∏

∏

\u2211

∑

∑

\u2212

−

−

\u2217

∗

∗

\u221A

√

√

\u221D

∝

∝

\u221E

∞

∞

\u2220

∠

∠

\u2227

∧

∧

\u2228

∨

∨

\u2229

∩

∩

\u222A

∪

∪

\u222B

∫

∫

\u2234

∴

∴

\u223C

∼

∼

\u2245

≅

≅

\u2248

≈

≈

\u2260

≠

≠

\u2261

≡

≡

\u2264

≤

≤

\u2265

≥

≥

\u2282

⊂

⊂

\u2283

⊃

⊃

\u2284

⊄

⊄

\u2286

⊆

⊆

\u2287

⊇

⊇

\u2295

⊕

⊕

\u2297

⊗

⊗

\u22A5

⊥

⊥

\u22C5

⋅

⋅

\u2308

⌈

⌈

\u2309

⌉

⌉

\u230A

⌊

⌊

\u230B

⌋

⌋

\u2329

〈

⟨

\u232A

〉

⟩

\u25CA

◊

◊

\u2660

♠

♠

\u2663

♣

♣

\u2665

♥

♥

\u2666

♦

♦

 


http://www.ppmy.cn/news/726091.html

相关文章

python \xe6\xb5解码

python中文decode,类似\xe6\xb5等 utf-8编码gbk编码总结 utf-8编码 data “python中文测试” utf-8编码之后: data_utf8 data.encode(“utf-8”) gbk编码 data “python中文测试” gbk编码之后: data_gbk data.encode(“gbk”) 总…

com_error: (-2147221008, '\xc9\xd0\xce\xb4\xb5\xf7\xd3\xc3 CoInitialize\xa1\

使用多线程编程,且需要调用win32com模块时,常见的错误如下 com_error: (-2147221008, \xc9\xd0\xce\xb4\xb5\xf7\xd3\xc3 CoInitialize\xa1\xa3, None, None) 将第二行error中的第二项,打印出来是:“尚未调用 CoInitialize”&…

ERROR 1366 (HY000): Incorrect string value: '\xE8\xB5\xB5\xE9\x9B\xB7' for column 'Sname' at row 1

问题描述: 我的操作步骤: 1、创建数据库test,语句: create database test; 2、创建Student表: create table Student(SId varchar(10),Sname varchar(10),Sage datetime,Ssex varchar(10)); 3、插入数据&…

mysql中新增数据报错Incorrect string value: ‘\\xE5\\xBF\\xB5\\xE6\\x88\\x90‘ for column ‘**‘ at row 1

原因:插入数据中包含了Emoji表情导致的。 解决方法:修改字段的字符集。 修改前: 修改后: utf8与utf8mb4的区别: UTF-8编码中,一个英文字符占用一个字节的存储空间,一个中文(含繁体…

SyntaxError: Non-UTF-8 code starting with ‘\xb5‘ in file XX but no encoding declared; see http...

Python运行结果报错: SyntaxError: Non-UTF-8 code starting with \xb5 in file D:\code\MarketFuture\main.py on line 13, but no encoding declared; see https://peps.python.org/pep-0263/ for details 解决方案: 首行添加: # -*- c…

java.sql.SQLException: Incorrect string value: ‘\xE6\xB5\x8B\xE8\xAF\x95...‘ for column ‘xxx‘

原因:sql表编码问题 解决办法 一、改变单个表属性 ALTER TABLE 表名 CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_bin; 二、删除表从新创建 创建时候

解决python UnicodeEncodeError: ‘gbk‘ codec can‘t encode character ‘\xb5‘ in position 255: illegal mult

UnicodeEncodeError: gbk codec cant encode character \ufffd in position 373: illegal multibyte sequence 问题翻译: UnicodeEncodeError:“gbk”编解码器无法对位置373处的字符“\ufffd”进行编码:非法的多字节序列 报错代码告诉我们“gbk”的编…

ERROR 1366 (HY000): Incorrect string value: ‘\xE8\xB5\xB5\xE9\x9B\xB7‘ for column ‘s_name‘ at row 1

mysql字符集不符合要求而产生的错误 产生原因之一:创建表的时候没有指定字符集,创建完字段用alter table Student default charsetutf8;修改了字符集为utf8;但是对于已创建的字段不起作用; 用show create table table_name\G; 查…