php爬虫之获取淘宝商品数据

embedded/2024/10/21 23:24:18/

爬取淘宝信息数据
首先需要先导入webdriver

1.from selenium import webdriver

webdriver支持主流的浏览器,比如说:谷歌浏览器、火狐浏览器、IE浏览器等等

然后可以创建一个webdriver对象,通过这个对象就可以通过get方法请求网站

1.driver = webdriver.Chrome()    # 创建driver对象
2.driver.get('https://www.baidu.com')    # 请求百度

接下来可以定义一个方法:search_product

一、selenium的简单介绍
1.selenium简介
selenium是一个用于测试网站的自动化测试工具,支持很多主流的浏览器,比如:谷歌浏览器、火狐浏览器、IE、Safari等。

2.支持多个操作系统
如windows、Linux、IOS、Android等。

3、安装selenium
打开终端输入

pip install Selenium
1
4、安装浏览器驱动
1、Chrome驱动文件下载:点击下载谷歌浏览器驱动

2、火狐浏览器驱动文件下载:点击下载geckodriver

5、配置环境变量
配置环境变量的方法非常简单,首先将下载好的驱动进行解压,放到你安装Python的目录下,即可。

因为之前,在配置Python环境变量的时候,就将Python的目录放到我的电脑–>属性–>系统设置–>高级–>环境变量–>系统变量–>Path


二、selenium快速入门
1、selenium提供8种定位方式
1、id

2、name

3、class name

4、tag name

5、link text

6、partial link text

7、xpath

8、css selector2、定位元素的8中方式详解
定义一个元素    定位多个元素    含义

find_element_by_id    find_elements_by_id    通过元素的id定位
find_element_by_name    find_elements_by_name    通过元素name定位
find_element_by_xpath    find_elements_by_xpath    通过xpath表达式定位
find_element_by_link_text    find_elements_by_link_text    通过完整超链接定位
find_element_by_partial_link_text    find_elements_by_partial_link_text    通过部分链接定位
find_element_by_tag_name    find_elements_by_tag_name    通过标签定位
find_element_by_class_name    find_elements_by_class_name    通过类名进行定位
find_element_by_css_selector    find_elements_by_css_selector    通过css选择器进行定位
3、selenium库下webdriver模块常用的方法与使用
控制浏览器的一些方法
方法    说明
set_window_size()    设置浏览器的大小
back()    控制浏览器后退
forward()    控制浏览器前进
refresh()    刷新当前页面
clear()    清除文本
send_keys (value)    模拟按键输入
click()    单击元素
submit()    用于提交表单
get_attribute(name)    获取元素属性值
text    获取元素的文本
4、代码实例
from selenium import webdriver
import time# 创建Chrome浏览器对象,这会在电脑中打开一个窗口
browser = webdriver.Chrome()# 通过浏览器向服务器发起请求
browser.get('https://www.baidu.com')time.sleep(3)# 刷新浏览器
browser.refresh()# 最大化浏览器窗口
browser.maximize_window()# 设置链接内容
element = browser.find_element_by_link_text('抗击肺炎')# 点击'抗击肺炎'

爬取淘宝数据测试
淘宝页面可以看到需要获取的信息是:价格、商品名称、付款人数、店铺名称。

现在我们开始进入主题。

首先,需要输入你要搜索商品的内容,然后根据内容去搜索淘宝信息,最后提取信息并保存。

1、搜素商品
我在这里定义提个搜索商品的函数和一个主函数。

搜索商品
在这里需要创建一个浏览器对象,并且根据该对象的get方法来发送请求。

从上图可以发现搜索框的id值为q,那么这样就简单很多了,有HTML基础的朋友肯定知道id值是唯一的。

通过id值可以获取到文本框的位置,并传入参数,然后点击搜索按钮。

从上图可以发现搜索按钮在一个类里面,那么可以通过这个类来定位到搜索按钮,并执行点击操作。

当点击搜索按钮之后,网页便会跳转到登录界面,要求我们登录,如下图所示:


​ 登录成功后会发现,里面的数据总共有100页面。


上图是前三页的url地址,你会发现其实并没有太大的变化,经过测试发现,真正有效的参数是框起来的内容,它的变化会导致页面的跳转,很明显第一页的s=0,第二页s=44,第三页s=88,以此类推,之后就可以轻松做到翻页了。

搜搜商品的代码如下:

def search_product(key_word):''':param key_word: 搜索关键字:return:'''# 通过id值来获取文本框的位置,并传入关键字browser.find_element_by_id('q').send_keys(key_word)# 通过class来获取到搜索按钮的位置,并点击browser.find_element_by_class_name('btn-search').click()# 最大化窗口browser.maximize_window()time.sleep(15)page = browser.find_element_by_xpath('//div[@class="total"]').text  # 共 100 页,page = re.findall('(\d+)', page)[0] # findall返回一个列表return page



2、获取商品信息并保存

获取商品信息相对比较简单,可以通过xpath方式来获取数据。在这里我就不在论述。在这边我创建了一个函数get_product来获取并保存信息。在保存信息的过程中使用到了csv模块,目的是将信息保存到csv里面。def get_product():divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')    # 这里返回的是列表,注意:elementsfor div in divs:info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').textprice = div.find_element_by_xpath('.//strong').text + '元'nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').textnames = div.find_element_by_xpath('.//div[@class="shop"]/a').textprint(info, price, nums, names,sep='|')with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:csv_writer = csv.writer(file, delimiter=',')    # 指定分隔符为逗号csv_writer.writerow([info, price, nums, names])


3、构造URL实现翻页爬取

从上面的图片中可以发现连续三页URL的地址,其实真正变化并不是很多,经过测试发现,只有q和s两个参数是有用的。构造出的url:https://s.taobao.com/search?q={}&s={}因为q是你要搜索的商品,s是设置翻页的参数。这段代码就放在了主函数里面def main():browser.get('https://www.taobao.com/')  # 向服务器发送请求page = search_product(key_word)print('正在爬取第1页的数据')get_product()   # 已经获得第1页的数据page_nums = 1while page_nums != page:print('*'*100)print('正在爬取第{}页的数据'.format(page_nums+1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))browser.implicitly_wait(10) # 等待10秒get_product()page_nums += 1


http://www.ppmy.cn/embedded/43138.html

相关文章

4-主窗口

4-主窗口 1、简介2 菜单栏、工具栏、状态栏2.1 菜单栏2.2 QAction2.3 工具栏2.4 状态栏 3 混合方式UI设计 1、简介 QMainWindow是一个为用户提供主窗口程序的类,包含一个菜单栏、多个工具栏、多个停靠控件、一个状态栏以及一个中心控件,是许多应用程序&…

CentOS 7安装prometheus

说明:本文介绍如何在CentOS操作系统上安装prometheus Step1:下载安装包 访问Github仓库,下载对应版本的prometheus安装包 https://github.com/prometheus/prometheus/releases 操作系统的版本信息,可通过下面这两个命令查看&am…

10.SpringBoot 统一处理功能

文章目录 1.拦截器1.1在代码中的应用1.1.1定义拦截器1.1.2注册配置拦截器 1.2拦截器的作用1.3拦截器的实现 2.统一数据返回格式2.1 为什么需要统⼀数据返回格式?2.2 统⼀数据返回格式的实现 3.统一异常处理4.SpringBoot专业版创建项目无Java8版本怎么办?…

C#面:当一个线程进入一个对象的方法后,其它线程是否可以进入该对象的方法?

一个线程在访问一个对象的一个synchronized方法时: 另一个线程可以同时访问这个对象的非同步方法。另一个线程不可以同时访问这个对象的普通同步方法。另一个线程可以同时访问这个对象的静态同步方法 ,即static synchronized修饰的方法 。另一个线程不可…

Java小抄(一)|Java中的List与Set转换

文章目录 List和Set的区别线程安全的区别相互转换List->SetSet->List List和Set的区别 在Java中,List和Set都是集合接口,它们之间有几个关键的区别: 重复元素: List允许重复元素,可以存储相同的元素多次。Set…

前端基础入门三大核心之JS篇:掌握数字魔法 ——「累加器与累乘器」的奥秘籍【含样例代码】

前端基础入门三大核心之JS篇:掌握数字魔法 ——「累加器与累乘器」的奥秘籍 🧙‍♂️ 基础概念:数字的魔杖与炼金术累加器(Accumulator)累乘器(Multiplier) 📚 实战演练:…

docker容器安装nexus3以及nexus3备份迁移仓库数据

一、安装步骤 1.搜索nexus3镜像 docker search nexus3 2.拉取镜像 docker pull sonatype/nexus3或者指定版本 docker pull sonatype/nexus3:3.68.0 3.查看拉取的镜像 docker images | grep "nexus3" 4.启动nexus服务 直接启动 docker run -d --name nexus3 -…

Docker数据卷(volume)

数据卷 数据卷是一个虚拟目录,是容器内目录与宿主机目录之间映射的桥梁。(容器内目录与宿主机目录对应的桥梁,修改宿主机对应的目录,docker会映射到容器内部,相当于修改了容器内的,反之也一样)数…