一、实现的目标
在使用爬虫获取网页html数据时,解析到的链接是/或./ 开头的相对链接,不是以http开头的链接,如:/picture/0/cca65350643c441e80d390ded3975db0.png 。此时需要完成对该链接的补全,以得到正确的链接。
二、实现思路
对比完整的url链接和相对链接,进行分析,发现有三种形式:
1)相对链接以 / 开头,完整的链接是当前网页url中的的域名+相对链接
比如,相对链接地址为:/picture/0/cca65350643c441e80d390ded3975db0.png
当前网页url为: http://www.yangguang.com.cn/fbwz/list.html
则补全后的完整地址应该为: http://www.yangguang.com.cn/picture/0/cca65350643c441e80d390ded3975db0.png