项目需求
- 收集京东平台小牛电动车的用户评价,不含其它周边类似配件的用户评价。
步骤
- 获取小牛电动车各个型号的产品列表及对应的产品页链接
- 按照各个型号给出的产品页链接,爬取每个产品的商品评价
selenium爬取
# 京东评论 爬取
from selenium import webdriver
import time
import numpy as np
import pandas as pd
from selenium.common.exceptions import NoSuchElementExceptionchromeOptions = webdriver.ChromeOptions()
chromeOptions.add_argument('--proxy-server=127.0.0.1:8118')# 京东的反爬虫机制是对疑似爬虫用户禁封IP的形式,所以访问时注意设置代理IP# 如果所需的爬虫较多,需要设置休息时间
browser = webdriver.Chrome(options=chromeOptions)#browser = webdriver.Chrome()
browser.get('https://mall.jd.com/view_search-625118.html')
browser.maximize_window()
# 找到五个产品分类
category = browser.find_elements_by_partial_link_text('小牛电动')[:5]
category_name = [cate.text for cate in category]
category_links = [cate.get_attribute('href') for cate in category]
time.sleep(np.random.randint(0,5)) # 京东的反爬虫机制是对疑似爬虫用户禁封IP的形式。
Requests爬取
requests爬取是对selenium爬取的一次升级,在对网页交互进行分析的基础上,我们可以直接访问到某个商品评论的json。这种方式显然是快于用selenium直接访问每页评论的。
网页分析
如上图所示,我们用chrome的检查工具中网络分析来寻找有用的信息。
这个请求的返回结果正好是我们想寻找的商品评论json。
接下的来的操作可以移步[京东评论爬取]。(https://blog.csdn.net/Minervar/article/details/89080119)