url链接粘贴下来后通常会出现类似%E4%BD%A0%E5%A5%BD的编码,一般来说一个中文字对应三个%编码的是utf-8, 一个中文字对应两个%编码的是GB2312。
还可以在http://tool.chinaz.com/tools/urlencode.aspx 这个网站上进行解码测试。在这里%E4%BD%A0%E5%A5%BD是utf-8 你好 的意思。
- decode 的作用是将其他编码的字符串转换成 Unicode 编码
- encode 的作用是将Unicode编码转换成其他编码的字符串
在python里对url 的utf-8编码进行str.decode(‘utf-8’)是不起作用的,但urllib库里面有个urlencode函数,可以把key-value这样的键值对转换成url格式,返回的是a=1&b=2这样的字符串
urllib另外对字符串还单独提供 quote()函数 和 unquote()函数
- quote()把字符串进行urlencode转换
import urllibprint urllib.quote("你好")#%E4%BD%A0%E5%A5%BD
- unquote()对urlencode后的字符串进行解码
import urllibprint urllib.unquote("%E4%BD%A0%E5%A5%BD")#你好
参考:http://blog.csdn.net/haoni123321/article/details/15814111/