xpath应用大全

news/2024/9/25 23:23:10/
htmledit_views">

一、xpath在爬虫中的应用

1、/div 表示从根节点开始选取div节点

2、/span 表示从根节点开始选取span节点

3、//a 表示选取文档中所有a节点而不考虑其位置

4、@class 表示选取名为class的属性

5、 . 表示选取当前节点

6、 .. 表示选取当前节点的父节点

7、/div/a 表示从根节点开始选取div节点下的a节点

8、 /div/a[2]/img  表示从根节点开始选取div节点下的第二个a节点下的img节点

9、//div[@class='header-wrapper' 表示选取所有属性class的值为header-warpper的div节点

10、//* 表示选取文档中所有元素

11、//@* 表示选取文档中所有带属性的元素

12、/div/p/text() 表示选取p节点的文本内容

13、/div[contains(@class,"post")] 表示选取带有class属性且包含“post”的所有的div节点,取反//div[not(contains(@class,"post"))]

14、//div/p[last()-1] 表示选取div下倒数第二个p节点

15、//div/p[position()>1] 表示选取div下第二个p节点后的所有兄弟节点

二、xpath在爬虫中的应用场景

  1. 定位元素:使用XPath表达式可以精确地定位到网页中的特定元素,如标题、链接、图片等。

  2. 提取数据:结合XPath和爬虫工具(如Python的lxml、BeautifulSoup等库),可以轻松地提取网页中的数据,如商品价格、新闻标题、文章正文等。

  3. 处理复杂的HTML结构:面对复杂的HTML结构,XPath的灵活性和强大功能使其成为处理这类问题的理想选择。

  4. 自动化表单填写:在网页自动化测试或数据提交过程中,XPath可以用来定位表单元素,并模拟用户输入。

 三、使用xpath的基本步骤

  1. 分析网页结构:首先,你需要分析目标网页的HTML结构,确定要提取的数据位于哪些元素中。

  2. 编写XPath表达式:根据网页结构,编写XPath表达式来定位并提取所需的数据。XPath表达式可以使用标签名、属性、位置等信息来构建。

  3. 使用XPath提取数据:在你的爬虫脚本中,使用XPath解析库(如lxml、BeautifulSoup等)来执行XPath表达式,并提取数据。

四、xpath进阶用法

  1. 位置谓词
    • //ul/li[1]:选择ul下的第一个li元素。
    • //div[@class='article']/p[position()=last()]:选择classarticlediv下的最后一个p元素。
  2. 比较运算符
    • //p[@id='para1']:选择id属性为para1p元素。
    • //a[@href!='#']:选择href属性不等于#a元素。
  3. 逻辑运算符
    • //input[@type='text' and (@name='username' or @name='email')]:选择typetextnameusernameemailinput元素。
  4. 内置函数
    • contains(str1, str2):判断str1是否包含str2
    • starts-with(str, prefix):判断字符串str是否以prefix开头。
    • substring-before(str, delim):返回strdelim之前的子字符串。
    • substring-after(str, delim):返回strdelim之后的子字符串。

 


http://www.ppmy.cn/news/1530496.html

相关文章

香港服务器PING测试有什么作用?

PING测试是一种常用的网络诊断工具,用于测试计算机与服务器之间的网络连通性和响应时间。对于香港服务器,进行PING测试有以下几个作用: 香港服务器PING测试的作用包括: 检查网络连通性:PING测试可以帮助确定从本地计算…

DataX实战:从MongoDB到MySQL的数据迁移--修改源码并测试打包

在现代数据驱动的业务环境中,数据迁移和集成是常见的需求。DataX,作为阿里云开源的数据集成工具,提供了强大的数据同步能力,支持多种数据源和目标端。本文将介绍如何使用DataX将数据从MongoDB迁移到MySQL。 环境准备 安装MongoDB…

在 Vue 项目中引用 assets 文件夹中的几种方式

在 Vue 项目中引用 assets 文件夹中的图片可以通过以下几种方式&#xff1a; 一、在模板中引用 在.vue文件的模板部分&#xff0c;可以使用相对路径来引用图片。例如&#xff1a; <template><img src"/assets/image.jpg" alt"描述图片的文本"&…

DataGrip在Windows和MacOS平台上的快捷键

0. 背景信息 No.说明1测试DataGrip版本号 : 2024.2.2 1. Windows下快捷键 2. MacOS下快捷键

十、数字人IP应用方案

1、背景 在当今的数字时代,随着AI技术的突飞猛进,数字人AI已经从概念走向应用,成为知识内容创作领域一股不可忽视的力量。它的出现,在很大程度上极大地提高了内容的生产效率,大有替代知识IP,成为内容IP终结者的趋势。 数字人IP,从形象到声音,与知识博主真人的相似度可…

安卓简易权限调用

EasyPermission 简易权限调用 功能&特性 1、自动判断权限所在的请求周期&#xff0c;自动回调 从未请求&#xff0c;调用ActivityCompat.requestPermissions。仅被拒绝&#xff0c;请求权限任意次&#xff0c;但每次都拒绝&#xff0c;调用ActivityCompat.requestPermis…

C++之stack 和 queue

目录 前言 1.stack的介绍和使用 1.1 stack的介绍 1.2 stack的使用 1.3 stack 的模拟 2. queue的介绍和使用 2.1 queue的介绍 2.2 queue的使用 2.3 queue的模拟 3.适配器 3.1 什么是适配器 3.2 STL标准库中stack和queue的底层结构 3.3 deque 的介绍&#xff08;了解&…

进击J7:对于ResNeXt-50算法的思考

&#x1f368; 本文为&#x1f517;365天深度学习训练营 中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 本周任务是自行探索解决问题&#xff0c;通过此次思考过程逐渐将知识层面的学习过渡到能力层面的培养上。 一、任务 &#x1f4cc; **你需要解决的疑问&…