Python爬虫lxml模块安装导入和xpath基本语法

embedded/2024/10/22 10:41:59/

lxml模块是Python的一个解析库,主要用于解析HTML和XML文件。

一、安装导入

使用包管理器安装,在cmd下或编辑器下的控制台,运行:

pip install lxml

导入:

from lxml import etree

二、xpath基础知识

XPath(XML Path Language,即XML路径语言)是一种在XML文档中查找信息的语言。它基于XML的树状结构,使用路径表达式来选取XML文档中的节点或节点集

  • //:代表寻找所有(如://div,找到的就是页面所有的div标签)
  • /:代表从根节点找一个
  • @:寻找属性(如://div[@class='123'],找到的是所有class属性值为123的标签)

                也可以寻找属性值://div/@class。找到的是所有div的class属性值

                可以结合节点选择器使用,如 //book[@price>35] 表示选择所有 price 属性值大于35的 book 元素。

  • 当前节点:使用点 . 表示选取当前节点。
  • 父节点:使用两个点 .. 表示选取当前节点的父节点。
  • * 匹配任何元素名。例如,//* 表示选择文档中的所有元素。
  • @* 匹配任何属性名。例如,//book[@*] 表示选择所有具有至少一个属性的 book 元素。
  • 谓词用于进一步筛选满足条件的节点,它被嵌在方括号 [] 中。例如,/root/child[1] 表示选择 root 元素的第一个 child 子元素。
  • 谓词可以使用比较运算符(如 =!=<> 等)、逻辑运算符(如 andornot)和XPath函数(如 last()position()starts-with()contains() 等)。
  • child:: 选择当前节点的子元素节点。
  • attribute:: 选择当前节点的属性。
  • descendant:: 选择当前节点的所有后代节点。
  • parent:: 选择当前节点的父节点。
  • ancestor:: 选择当前节点的所有祖先节点。
  • following-sibling:: 选择当前节点之后的同级节点。
  • preceding-sibling:: 选择当前节点之前的同级节点

三、案例

比如我们有一个数据:

python">html_data = '''
<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html">second item</a></li><li class="item-inactive"><a href="link3.html"><span class="bold">third item</span></a></li><li class="item-1"><a href="link4.html">fourth item</a></li><li class="item-0"><a href="link5.html">fifth item</a></ul>
</div>
'''

我们可以看出,这个数据并不是一个完整的html的结构,但是,xpath需要通过结构路径寻找节点,所以我们需要补全结构,而且要把这个数据解析为element对象才可以通过xpath对其操作,所以我们用到以下语法:

python">html=etree.HTML(html_data)

etree.HTML():将字符串形式的HTML代码解析为Element对象。该函数会自动补全缺失的标签,并尝试修正HTML代码中的错误。括号中是要解析的数据,html是他解析后返回的element对象。

接下来我们就可以对这个数据进行操作了

案例1:

拿到第二个li的class值:

python">html.xpath("//li[2]/@class")

案例2:

拿到最后一个li的a标签的href属性值:

python">html.xpath("//li[last()]/a/@href")

 案例3:

根据属性值获取元素内容
python">html.xpath("//li/a[@href='link1.html']/text()")


http://www.ppmy.cn/embedded/118185.html

相关文章

arm-硬件

一、ARM体系与架构 ARM芯片组成 -- arm 体系中&#xff0c;一般讲到的芯片由两大部分组成&#xff1a;arm的内核、外设 arm内核&#xff1a; -- 其内核主要由&#xff1a;寄存器、指令集、总线、存储器映射规则、中断逻辑主调试组件构成。ARM公司只设计内核&#xff0c;授权给…

【软件管理】软件管理制度(2024Word)

一、总则 二、阶段成果 三、岗位设置 四、项目立项 五、项目计划与监控 六、需求分析 七、总体设计 八、详细设计 九、项目实现 十、项目测试 十一、用户培训 十二、系统上线 十三、系统验收 十四、产品维护 十五、源码和文档 十六、质量检查 十七、文档规范 十八、项目变更 软…

EECS498 Deep Learning for Computer Vision (一)软件使用指南

#最近开始学习深度学习的相关基础知识&#xff0c;记录一下相关笔记及学习成果# learning&#xff1a;building artificial systems that learn from data and experience deep learning(a set of machine learning): hierarchical learning algorithms with many "laye…

【机器学习】音乐生成——AI如何创作个性化音乐与配乐

我的主页&#xff1a;2的n次方_ 音乐是人类文化的重要组成部分&#xff0c;它具有极强的情感表达和艺术价值。近年来&#xff0c;随着人工智能技术的飞速发展&#xff0c;AI已经能够自动生成音乐&#xff0c;甚至根据用户需求创作个性化配乐。AI生成音乐的应用场景广泛&…

商业终端架构技术-未来之窗行业应用跨平台架构

未来之窗行业应用跨平台架构 以下是对未来之窗行业应用跨平台架构中客户端的稳定优势和网页跨平台性质的扩展列举&#xff1a; 一、客户端的稳定优势&#xff1a; 1. 离线可用性 - 即使在没有网络连接的…

Python实现图形学曲线和曲面的Bezier曲线算法

目录 使用Python实现图形学曲线和曲面的Bezier曲线算法引言Bezier曲线的数学原理1. Bezier曲线定义2. Bezier曲线的递归形式 Python实现Bezier曲线算法1. 代码实现 代码详解使用示例Bezier曲线的特点Bezier曲面的扩展Bezier曲面类实现 总结 使用Python实现图形学曲线和曲面的Be…

swiper3匀速滚动会卡顿问题,已解决

swiper3中,设置图片匀速滚动 <!-- 轮播图 --><div class="swiper-container swiper mySwiper"><div class="swiper-wrapper">

2025秋招内推--招联金融

【投递方式】 直接扫下方二维码&#xff0c;或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus&#xff0c;使用内推码 igcefb 投递&#xff09; 【招聘岗位】 后台开发 前端开发 数据开发 数据运营 算法开发 技术运维 软件测试 产品策…