爬虫入门 Selenium使用

server/2024/12/23 5:40:57/

爬虫入门 & Selenium使用

特别声明📢:本教程只用于教学,大家在使用爬虫过程中需要遵守相关法律法规,否则后果自负!!!

  • 项目代码:https://github.com/ziyifast/ziyifast-code_instruction/tree/main/python-demo/spider-demo/selenium

爬虫入门

概念

爬虫通俗点就是,我们通过代码的方式向浏览器发送请求获取我们想要的数据。因为整个互联网像是一个巨大的网,我们像是蜘蛛在网上面搜索我们要的东西,所以又叫爬虫

流程:

  1. 我们通过向服务器发送请求
  2. 服务器响应网页数据(html+css+js等)
  3. 我们通过特定语言定位我们想要的数据(xpath、jsonpath、bs4等)
  4. 解析出数据,下载保存到数据库,或导出为报表

详细文档:https://blog.csdn.net/weixin_45565886/article/details/129544034

xpath_15">元素定位:xpath

既然我们要从服务器响应的数据中定位📌并获取数据,就不得不使用特定语言,这里介绍比较主流的xpath

xpath_helper_18">插件安装:xpath helper

建议大家在浏览器安装xpath插件,这样我们可以一边看网页,一边写xpath,更方便定位元素位置,提升效率。

链接: https://pan.baidu.com/s/1CqYfYzoNvjUadT3hpE0ewA 提取码: 4w34

  1. 将插件进行解压,在访达里面直接双击就解压了
    在这里插入图片描述

  2. 打开谷歌浏览器,选择右上方三个小点,找到更多工具,找到扩展程序点击进去(不同版本,可能有区别。如果更多工具处没找到扩展程序,点击设置按钮进入页面)
    在这里插入图片描述

  3. 打开右上角的开发者模式

  4. 将解压好的插件包拖进来就OK,注意:跟Windows不同的是这个就是一个文件夹,名为xpath,将这一整个文件夹拖进去

  5. xpath插件选择启用就完成了,如果浏览器上还是没有出现xpath插件,将插件重新加载就OK

  6. 打开网页->xpath在mac上的打开与关闭的快捷键为:command + shift + x。也可以直接点击插件进行启用
    在这里插入图片描述

语法

语法详情:
https://www.w3school.com.cn/xpath/xpath_syntax.asp
https://www.runoob.com/xpath/xpath-tutorial.html

xpath基本语法: 
1.路径查询 
//:查找所有子孙节点,不考虑层级关系 
/ :找直接子节点 
2.谓词查询 
//div[@id] 
//div[@id="maincontent"] 
3.属性查询 
//@class 
4.模糊查询 
//div[contains(@id, "he")]
//div[starts‐with(@id, "he")] 
5.内容查询 
//div/h1/text() 
6.逻辑运算 
//div[@id="head" and @class="s_down"]
//title | //price

案例:定位百度搜索按钮

  1. F12或option+command+i 打开开发者工具查看源码
    在这里插入图片描述
  2. 发现百度一下按钮在input标签下,且id=su。那么对应的xpath就为://input[@id="su"]
    代表从html页面根开始查找其input标签且id=su的子孙元素
  • 如果想拿到百度一下这四个字://input[@id="su"]/@value在这里插入图片描述> 3. 转换为对应python代码
python"># 安装依赖:pip install lxml
import urllib.request
from lxml import etreeurl = "http://www.baidu.com"
response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
web_html = etree.HTML(content)# 使用XPath选择器找到id为"su"的<input>元素,并获取其"value"属性值
result = web_html.xpath('//input[@id="su"]/@value')print(result)

项目实战

Selenium:模拟用户操作浏览器

概念

web应用程序测试工具,模拟用户操作浏览器

Selenium是一个用于Web应用程序测试的工具。Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样。

环境搭建
  1. 安装Google驱动

安装Google驱动(打开谷歌浏览器,设置-关于-查看对应Google版本),然后进入下面网址下载
https://googlechromelabs.github.io/chrome-for-testing/#stable

  • 选择对应版本(chrome driver驱动版本+chrome驱动对应架构)
    在这里插入图片描述
  1. 安装selenium
pip install selenium
项目实战

01_selenium_demo.py:

python">from selenium import webdriver
from selenium.webdriver.common.by import By# 设置驱动路径、创建浏览器对象
browser = webdriver.Chrome('/Users/ziyi/GolandProjects/ziyifast-code_instruction/python-demo/spider-demo/selenium/chromedriver')browser.get("https://www.baidu.com")import time
time.sleep(2)
# 获取文本框对象
input = browser.find_element(By.ID,"kw")
# 输入curry
input.send_keys('curry')
# 休眠2s观察效果
time.sleep(2)
# 获取百度一下按钮
search_button = browser.find_element(By.ID,'su')
# 点击按钮
search_button.click()
time.sleep(2)
# 滑动浏览器页面
js_bottom = 'document.documentElement.scrollTop=100000'
browser.execute_script(js_bottom)
time.sleep(2)
# 获取下一页按钮
next = browser.find_element(By.XPATH,'//a[@class="n"]')
# 点击下一页
next.click()
# 回到上一页面
browser.back()
time.sleep(1)
# 前进一个页面
browser.forward()
time.sleep(2)
# 退出浏览器
browser.quit()

如果运行项目出现告警:NotOpenSSLWarning: urllib3 v2 only supports OpenSSL 1.1.1+, currently the ‘ssl’ module is compiled with ‘LibreSSL 2.8.3’
解决:pip install urllib3==1.26.15

运行效果:浏览器自动打开并进行操作
在这里插入图片描述

Selenium+PhantomJS:无需打开浏览器即可完成数据爬取,效率更快

概念

PhantomJS 是一个无头浏览器,它提供了一个可编程的JavaScript API,允许开发者在没有用户界面的情况下执行浏览器相关的操作。由于不进行css和gui渲染,运行效率要比真实的浏览器要快很多。

环境搭建

下载地址:https://phantomjs.org/download.html

# 需要注意最新版的selenium不支持phantomjs
# 如果要使用phantomjs,需要安装之前版本2.48.0
pip uninstall selenium 
pip install selenium==2.48.0
项目实战

selenium/02_phantomjs_demo.py:

python"># phantomJs: 无页面浏览器,支持页面元素查找、js执行;由于不支持css和gui渲染,运行效率比真实浏览器快很多
# Selenium: 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。
# Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。
# 但是我们有时候需要让它内嵌在代码中运行,所以我们可以用一个叫 Phantomjs 的工具代替真实的浏览器。
from selenium import webdriver
browser = webdriver.PhantomJS("/Users/ziyi/GolandProjects/ziyifast-code_instruction/python-demo/spider-demo/selenium/phantomjs")
browser.get("http://www.baidu.com")
# 拍快照,证明成功访问了百度
browser.save_screenshot("baidu.png")

Selenium+chrome headless:chrome新版原生支持无界面运行

概念

随着Chrome59版本推出Headless模式(无界面模式)以来,越来越多人采用Selenium+Headless Chrome模式
selenium+headless VS selenium+phantomjs

  • Headless Chrome加载速度比PhantomJS快55%
  • Headless Chrome消耗内存比PhantomJS少38%
    数据来源:https://hackernoon.com/benchmark-headless-chrome-vs-phantomjs-e7f44c6956c
环境搭建

Chrome

  • Unix\Linux 系统需要 chrome >= 59
  • Windows 系统需要 chrome >= 60 Python3.6
    • Selenium==3.4.*
    • ChromeDriver==2.31
项目实战

03_chrome_headless_demo.py:

python"># 随着Chrome59版本推出Headless模式(无界面模式)以来,越来越多人采用Selenium+Headless Chrome模式,实现自动化测试+爬虫
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument("--headless")
chrome_options.add_argument("--disable-gpu")
path = r'C:\Program Files (x86)\Google\Chrome\Application\chrome.exe'
chrome_options.binary_location = path
browser = webdriver.Chrome(chrome_options=chrome_options)
browser.get('http://www.baidu.com')

http://www.ppmy.cn/server/126430.html

相关文章

56 门控循环单元(GRU)_by《李沐:动手学深度学习v2》pytorch版

系列文章目录 文章目录 系列文章目录门控循环单元&#xff08;GRU&#xff09;门控隐状态重置门和更新门候选隐状态隐状态 从零开始实现初始化模型参数定义模型训练与预测 简洁实现小结练习 门控循环单元&#xff08;GRU&#xff09; 之前我们讨论了如何在循环神经网络中计算梯…

MySQL--数据库约束(详解)

目录 一、前言二、概念三、数据库约束3.1 约束类型3.1.1 NOT NULL 约束3.1.2 UNIQUE (唯一&#xff09;3.1.3 DEFAULT&#xff08;默认&#xff09;3.1.4 PRIMARY KEY&#xff08;主键&#xff09;3.1.5 FOREIGN KEY&#xff08;外键&#xff09;3.1.6 CHECK 四、总结 一、前言…

Excel下拉菜单制作及选项修改

Excel下拉菜单 1、下拉菜单制作2、下拉菜单修改 下拉框&#xff08;选项菜单&#xff09;是十分常见的功能。Excel支持下拉框制作&#xff0c;通过预设选项进行菜单选择&#xff0c;可以避免手动输入错误和重复工作&#xff0c;提升数据输入的准确性和效率 1、下拉菜单制作 步…

小徐影院:探索Spring Boot的影院管理

第二章开发技术介绍 2.1相关技术 小徐影城管理系统是在Java MySQL开发环境的基础上开发的。Java是一种服务器端脚本语言&#xff0c;易于学习&#xff0c;实用且面向用户。全球超过35&#xff05;的Java驱动的互联网站点使用Java。MySQL是一个数据库管理系统&#xff0c;因为它…

Django类视图CBV

类视图&#xff08;Class-Based Views&#xff0c;简称 CBV&#xff09;是 Django 中构建视图的一种强大且灵活的方式。相比于函数视图&#xff08;Function-Based Views&#xff0c;FBV&#xff09;&#xff0c;类视图提供了更好的可复用性和可扩展性&#xff0c;尤其在处理复…

L5打卡学习笔记

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 决策树模型 导入数据模型训练模型预测个人总结 导入数据 import pandas as pd import numpy as npurl "https://archive.ics.uci.edu/ml/machine-learn…

Augular 学习步骤建议

Angular 是一个由 Google 维护的开源 Web 应用框架&#xff0c;用于开发单页面客户端应用程序。以下是学习 Angular 的建议步骤&#xff1a; 1. 了解基础&#xff1a; 熟悉 HTML、CSS 和 JavaScript 的基础知识。 了解 TypeScript&#xff0c;因为 Angular 应用程序主要使用…

什么是 HTTP 请求的 X-Forwarded-Proto 字段

X-Forwarded-Proto 是一个 HTTP 请求头部字段&#xff0c;用于指示客户端请求的原始协议。一般来说&#xff0c;这个协议会是 http 或 https。为了深入理解 X-Forwarded-Proto 的作用&#xff0c;我们需要从多个角度进行探讨&#xff0c;包括其应用场景、技术原理以及实际案例。…