初始爬虫9

devtools/2024/9/29 11:49:07/

1.元素定位后的操作

“find_element“仅仅能够获取元素,不能够直接获取其中的数据,如果需要获取数据需要使用以下方法”。下面列出了两个方法:

  1. 获取文本 element.text 通过定位获取的标签对象的 text 属性,获取文本内容

  2. 获取属性值 element.get_attribute("属性名") 通过定位获取的标签对象的 get_attribute 函数,传入属性名,来获取属性的值

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By# 打开目标URL
url = 'https://cq.58.com/hezu/?PGTID=0d100000-0002-59f0-74d2-1a2d488460c0&ClickID=5'# 初始化Edge浏览器
driver = webdriver.Edge()# 打开页面
driver.get(url)# 使用 find_elements 获取所有匹配的元素
el_list = driver.find_elements(By.XPATH, '/html/body/div[6]/div[2]/ul/li/div[2]/h2/a')# 遍历并打印每个元素
for el in el_list:print(el.text, el.get_attribute('href'))  # 打印元素的文本内容# 关闭浏览器
driver.quit()# el.click() 点击操作
# el.send_keys(data) el:text inpput
# el.clear() 对输入框做清空操作

2.selenium控制标签页切换

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC# 设置 URL 和驱动
url = 'https://cq.58.com/'
driver = webdriver.Edge()
driver.get(url)print(driver.current_url)
print(driver.window_handles)# 定位并点击合租链接
el = driver.find_elements(By.XPATH, '/html/body/div[3]/div[1]/div[1]/div/div[1]/div[1]/span[3]/a')
if el:el[0].click()
else:print("元素未找到!")# 切换到新窗口/标签页
driver.switch_to.window(driver.window_handles[-1])# 处理动态加载,使用显示等待,等待所需元素加载
try:# 等待直到指定的元素在 DOM 中存在el_list = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.XPATH, '/html/body/div[6]/div[2]/ul/li/div[2]/h2/a')))print(len(el_list))  # 现在应该能正确打印元素的数量
except Exception as e:print(f"发生错误:{e}")# 使用完毕后,记得关闭驱动
driver.quit()

3.窗口切换(存在内部框架)

 

QQ空间登录窗口切换

# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as ECurl = 'https://qzone.qq.com/'
driver = webdriver.Edge()
driver.get(url)
driver.implicitly_wait(10)# 等待 iframe 可用并切换到 iframe
try:# 使用 ID 查找 iframe,确保使用正确的选择器WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it((By.ID, "login_frame")))# 需要点击操作driver.find_element(By.ID, 'switcher_plogin').click()driver.find_element(By.ID, 'u').send_keys('账号')  # 请替换成您的账号driver.find_element(By.ID, 'p').send_keys('密码')  # 请替换成您的密码driver.find_element(By.ID, 'login_button').click()except Exception as e:print(f"An error occurred: {e}")finally:# 关闭浏览器driver.quit()

163邮箱登录窗口切换

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time# 创建浏览器驱动driver
driver = webdriver.Edge()
mail_url = "http://www.mail.163.com"# 访问指定网页
driver.get(mail_url)
driver.implicitly_wait(10)# 有内嵌网页,需要先切换到内嵌frame网页再进行定位
# 等待 iframe 加载并切换到 iframe
WebDriverWait(driver, 10).until(EC.frame_to_be_available_and_switch_to_it((By.TAG_NAME, "iframe"))
)# 定位账号输入框
email_input = driver.find_element(By.XPATH, '//input[@name="email"]')
email_input.clear()  # 删除提示信息
email_input.send_keys("账号")  # 测试过程中替换成自己的账号名# 定位密码输入框
password_input = driver.find_element(By.NAME, "password")
password_input.clear()  # 删除提示信息
password_input.send_keys("密码")  # 测试过程中替换成自己的密码# 定位登录按钮并点击
driver.find_element(By.ID, "dologin").click()# 等待登录过程完成
time.sleep(2)  # 可根据需要调整等待时间# 关闭浏览器
driver.quit()

4.selenium的cookies操作

# -*- coding: utf-8 -*-
from selenium import webdriverurl = 'http://www.baidu.com'
driver = webdriver.Edge()
driver.get(url)
print(driver.get_cookies())# cookies = {}
# for data in driver.get_cookies():
#     cookies[data['name']] = data['value']cookies = {data['name']: data['value'] for data in driver.get_cookies()}print(cookies)# # 删除cookie
# driver.delete_cookie('CookieName')
# # 删除所有cookie
# driver.delete_all_cookies()

 


http://www.ppmy.cn/devtools/118674.html

相关文章

一份冗长的文字

RS 名词 1.遥感 答案:从广义上说是泛指从远处探测、感知物体或事物的技术。即不直接接触物体本身,从远处通过仪器(传感器)探测和接收来自目标物体的信息(如电场、磁场、电磁波、地震波等信息),…

实在智能:创业需找准“切口” 并着力做深做透

如今,随着人工智能产业的爆发,大量专注于这一领域的初创企业不断涌现。尽管这种多元化的创新生态为产业发展注入了新的活力,但也不可避免的为初创企业带来了诸多压力和挑战。 浙江实在智能科技有限公司(以下简称“实在智能”)作为一家成立6年…

Unity3D Shader的阴影部分法线效果详解

前言 在Unity3D开发中,阴影处理是提升场景真实感和视觉质量的重要一环。法线贴图(Normal Mapping)作为一种高效的纹理映射技术,在增强模型表面细节和凹凸感方面扮演着重要角色。本文将详细解析UnityShader中阴影部分的法线效果&a…

在WPF中实现多语言切换的四种方式

在WPF中有多种方式可以实现多语言,这里提供几种常用的方式。 一、使用XML实现多语言切换 使用XML实现多语言的思路就是使用XML作为绑定的数据源。主要用到XmlDataProvider类. 使用XmlDataProvider.Source属性指定XML文件的路径或通过XmlDataProvider.Document指定…

分享一下PHP基本语法总结

1. PHP的语法结构 PHP(Hypertext Preprocessor)是一种广泛使用的开源服务器端脚本语言,特别擅长Web开发。以下是PHP主要语法结构的总结: 变量 变量在PHP中以$符号开头,变量名是区分大小写的。变量可以存储不同类型的…

【Verilog学习日常】—牛客网刷题—Verilog企业真题—VL66

超前进位加法器 描述 题目描述: 求两个四位的数据编写一个四位的超前进位加法器,建议使用子模块 提示:超前进位加法器的位公式如下 这里‘’ ‘’符号不是‘加’和‘乘’,是‘或’和 ‘与’ 波形示意图: 输入…

鸿蒙HarmonyOS NEXT系统揭秘:跨端迁移与多端协同

随着科技的飞速发展,万物互联的时代已经悄然来临。 在这个背景下,华为鸿蒙HarmonyOS NEXT系统的最新动向无疑成为了业界关注的焦点。 近日,关于鸿蒙操作系统将多设备协同功能细分为“跨端迁移”与“多端协同”的消息不胫而走,这…

DTO VO 与 POJO

目录 1、VO(View Object)2、DTO(Data Transfer Object)3、PO(Persistent Object) 名称说明Entity实体,通常和数据库中的表对应VO视图对象,为前端展示数据提供的对象DTO数据传输对象&…