一文掌握Selenium的详细使用

news/2025/2/26 22:42:12/

文章目录

    • 1. 安装 Selenium
      • 1.1 安装 Selenium 库
      • 1.2 下载浏览器驱动
    • 2. 基础用法
      • 2.1 启动浏览器
      • 2.2 查找元素
      • 2.3 操作元素
    • 3. 高级功能
      • 3.1 等待机制
      • 3.2 处理弹窗
      • 3.3 执行 JavaScript
      • 3.4 切换窗口或 iframe
      • 3.5 处理 Cookies
      • 3.6 截图
      • 3.7 处理下拉菜单
    • 4. 浏览器选项
      • 4.1 无头模式(Headless)
      • 4.2 禁用图片加载
      • 4.3 设置代理
    • 5. 常见应用场景
      • 5.1 自动化登录
      • 5.2 抓取动态加载数据
      • 5.3 登录网站并获取数据
    • 6. 注意事项
    • 6. 总结

Selenium 是一个用于自动化浏览器操作的工具,广泛用于 Web 自动化测试、数据抓取和网页交互。它支持多种浏览器(如 Chrome、Firefox、Edge 等)和编程语言(如 Python、Java、C# 等)。本文将详细介绍如何使用 Python 中的 Selenium 进行浏览器自动化操作。

1. 安装 Selenium

1.1 安装 Selenium 库

使用 pip 安装 Selenium:pip install selenium

1.2 下载浏览器驱动

Selenium 需要通过浏览器驱动来控制浏览器。常用的浏览器驱动如下:

Chrome: ChromeDriver

Firefox: GeckoDriver

Edge: Microsoft Edge WebDriver

下载与浏览器版本匹配的驱动,并将其路径添加到系统的环境变量中,或者直接在代码中指定驱动路径。

2. 基础用法

2.1 启动浏览器

以下示例以 Chrome 浏览器为例:

from selenium import webdriver# 指定 ChromeDriver 路径
driver_path = '/path/to/chromedriver'# 创建浏览器实例
driver = webdriver.Chrome(executable_path=driver_path)# 打开网页
driver.get('https://www.example.com')# 关闭浏览器
driver.quit()

2.2 查找元素

Selenium 提供了多种查找元素的方法:
find_element_by_id() 通过 ID 查找元素
find_element_by_name() 通过 Name 查找元素
find_element_by_class_name() 通过 Class Name 查找元素
find_element_by_tag_name() 通过 Tag Name 查找元素
find_element_by_css_selector() 通过 CSS 选择器查找元素
find_element_by_xpath() 通过 XPath 查找元素
find_element_by_link_text() 通过链接文本查找元素
find_element_by_partial_link_text() 通过部分链接文本查找元素

示例:

# 通过 ID 查找
element = driver.find_element(By.ID, "element-id")# 通过类名查找
element = driver.find_element(By.CLASS_NAME, "element-class")# 通过标签名查找
element = driver.find_element(By.TAG_NAME, "div")# 通过 CSS 选择器查找
element = driver.find_element(By.CSS_SELECTOR, "div.class-name")# 通过 XPath 查找
element = driver.find_element(By.XPATH, "//div[@id='element-id']")

2.3 操作元素

找到元素后,可以对其进行各种操作:

输入文本:

element = driver.find_element_by_name('q')
element.send_keys('Selenium')

点击元素:

element = driver.find_element_by_id('submit-button')
element.click()

获取元素属性:

element = driver.find_element_by_id('element-id')
print(element.get_attribute('value'))  # 获取 value 属性

获取元素文本:

element = driver.find_element_by_class_name('class-name')
print(element.text)  # 获取元素的文本内容

3. 高级功能

3.1 等待机制

Selenium 提供了显式等待和隐式等待机制,用于处理页面加载或元素加载的延迟。

显式等待:显式等待会等待某个条件成立后再继续执行。

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 等待最多 10 秒,直到元素出现
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, 'element-id'))

隐式等待:隐式等待会在查找元素时等待一定时间。

driver.implicitly_wait(10)  # 设置隐式等待时间为 10 秒

3.2 处理弹窗

Selenium 可以处理浏览器的弹窗(如警告框、确认框、提示框)。

# 切换到弹窗
alert = driver.switch_to.alert# 获取弹窗文本
print(alert.text)# 接受弹窗(点击确定)
alert.accept()# 拒绝弹窗(点击取消)
alert.dismiss()

3.3 执行 JavaScript

可以通过 execute_script() 方法执行 JavaScript 代码。

# 滚动页面到底部
driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')# 修改元素属性
driver.execute_script('document.getElementById("element-id").style.backgroundColor = "yellow";')

3.4 切换窗口或 iframe

切换窗口:当打开新窗口时,需要切换到新窗口。

# 获取当前窗口句柄
main_window = driver.current_window_handle# 打开新窗口
driver.find_element_by_link_text('Open New Window').click()# 切换到新窗口
for handle in driver.window_handles:if handle != main_window:driver.switch_to.window(handle)# 切换回主窗口
driver.switch_to.window(main_window)

切换 iframe:如果需要操作 iframe 中的元素,需要先切换到 iframe。

# 通过 ID 或 Name 切换
driver.switch_to.frame('iframe-id')# 切换回主页面
driver.switch_to.default_content()

3.5 处理 Cookies

Selenium 可以操作浏览器的 Cookies。

# 添加 Cookie
driver.add_cookie({'name': 'key', 'value': 'value'})# 获取 Cookie
print(driver.get_cookie('key'))# 删除 Cookie
driver.delete_cookie('key')# 删除所有 Cookies
driver.delete_all_cookies()

3.6 截图

可以截取当前页面的屏幕截图。

# 截图并保存
driver.save_screenshot('screenshot.png')

3.7 处理下拉菜单

from selenium.webdriver.support.ui import Select# 找到下拉菜单元素
select_element = driver.find_element(By.ID, "dropdown")# 创建 Select 对象
select = Select(select_element)# 通过文本选择
select.select_by_visible_text("Option 1")# 通过值选择
select.select_by_value("value1")# 通过索引选择
select.select_by_index(0)

4. 浏览器选项

4.1 无头模式(Headless)

from selenium.webdriver.chrome.options import Optionsoptions = Options()
options.add_argument("--headless")  # 启用无头模式
driver = webdriver.Chrome(options=options)

4.2 禁用图片加载

chrome_options = Options()
chrome_options.add_argument("--blink-settings=imagesEnabled=false")
driver = webdriver.Chrome(options=chrome_options)

4.3 设置代理

chrome_options = Options()
chrome_options.add_argument("--proxy-server=http://your-proxy-server:port")
driver = webdriver.Chrome(options=chrome_options)

5. 常见应用场景

5.1 自动化登录

from selenium import webdriverdriver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.example.com/login')# 输入用户名和密码
driver.find_element_by_name('username').send_keys('your-username')
driver.find_element_by_name('password').send_keys('your-password')# 点击登录按钮
driver.find_element_by_id('login-button').click()driver.quit()

5.2 抓取动态加载数据

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECdriver = webdriver.Chrome(executable_path='/path/to/chromedriver')
driver.get('https://www.example.com/dynamic-content')# 等待动态内容加载
element = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CLASS_NAME, 'dynamic-content'))
print(element.text)driver.quit()

5.3 登录网站并获取数据

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 启动浏览器
driver = webdriver.Chrome()# 打开登录页面
driver.get("https://www.example.com/login")# 输入用户名和密码
driver.find_element(By.ID, "username").send_keys("your_username")
driver.find_element(By.ID, "password").send_keys("your_password")# 点击登录按钮
driver.find_element(By.ID, "submit-button").click()# 等待页面加载完成
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.ID, "dashboard"))
)# 获取数据
data = driver.find_element(By.ID, "data").text
print(data)# 关闭浏览器
driver.quit()

6. 注意事项

​驱动版本匹配:确保浏览器驱动与浏览器版本匹配,否则会报错。

​反爬虫机制:部分网站会检测 Selenium 的使用,可以通过禁用自动化标志或使用代理绕过检测。

​性能优化:在爬虫中尽量减少不必要的操作(如滚动、点击),以提高效率。

​异常处理:使用 try-except 捕获异常,避免程序崩溃。

6. 总结

Selenium 是一个功能强大的浏览器自动化工具,适用于 Web 自动化测试、数据抓取和网页交互。通过掌握其基础用法和高级功能,你可以轻松实现各种浏览器自动化任务。在实际使用中,建议结合显式等待和异常处理,以提高脚本的稳定性和可靠性。

参考文档
Selenium 官方文档:https://www.selenium.dev/documentation/
ChromeDriver 下载:https://sites.google.com/chromium.org/driver/
GeckoDriver 下载:https://github.com/mozilla/geckodriver


http://www.ppmy.cn/news/1575107.html

相关文章

Java进阶学习笔记7——权限修饰符

什么是权限修饰符? 就是用来限制类中的成员(成员变量、成员方法、构造器、代码块…)能够被访问的范围。 protected使用的比较少,但是程序员还是要阅读代码,看官方文档是怎么写的,都会接触到protected修饰…

汽车无钥匙进入一键启动操作正确步骤

汽车智能无钥匙进入和一键启动的技术在近年来比较成熟,不同车型的操作步骤可能略有不同,但基本的流程应该是通用的,不会因为时间变化而有大的改变。 移动管家汽车一键启动无钥匙进入系统通常是通过携带钥匙靠近车辆,然后触摸门把…

Unity实用技能-UI与粒子效果总结

实用技能系列 Unity实用技能-UI滑动条技能总结Unity实用技能-UI规范总结Unity实用技能-协作规范总结 文章目录 实用技能系列前言对于粒子与UI的显示层级问题总结 前言 本周接触了UI和粒子有关的工作,记录一下 对于粒子与UI的显示层级问题 粒子本身依赖于材质球&a…

css实现左右切换平滑效果

2025.02.25今天我学习了如何用css实现平滑效果 一、html相关代码 &#xff08;1&#xff09;设置往左、往右的动画属性&#xff0c;样式可以放在同一级。 &#xff08;2&#xff09;必须设置唯一key进行刷新数据&#xff0c;使用v-show来展示每次渲染的组件数量。 <tran…

DeepSeek+Kimi生成高质量PPT

DeepSeek与Kimi生成PPT全流程解析 一、工具分工原理 DeepSeek核心作用&#xff1a;生成结构化PPT大纲&#xff08;擅长逻辑构建与内容优化&#xff09;Kimi核心作用&#xff1a;将文本转换为视觉化PPT&#xff08;提供模板库与排版引擎&#xff09; 二、操作步骤详解 1. 通…

电脑经常绿屏(蓝屏)怎么办(解决方法)?

一、排查系统与驱动问题 进入安全模式修复系统 强制重启电脑 3 次触发恢复环境&#xff0c;选择 疑难解答 > 高级选项 > 启动设置 > 重启&#xff0c;按 F5 或 5 进入带网络连接的安全模式3。 在安全模式下&#xff0c;尝试卸载最近安装的软件或更新&#xff0c;尤其…

【Git学习笔记】Git常用命令

Git常用命令 1、仓库2、配置3、增加/删除文件4、代码提交5、分支6、标签7、查看信息8、远程同步9、撤销10、其他 1、仓库 # 在当前目录新建一个Git代码库 $ git init# 新建一个目录&#xff0c;将其初始化为Git代码库 $ git init [project-name]# 下载一个项目和它的整个代码历…

分布式之Gossip协议

目录 Gossip 协议 Redis如何通过Gossip 协议进行通信的? Gossip 协议 参考: Gossip 协议详解 | JavaGuide Redis进阶 - 高可拓展:分片技术(Redis Cluster)详解 | Java 全栈知识体系 Redis如何通过Gossip 协议进行通信的? 在 Redis Cluster 中使用 Gossip 协议来实…