使用XPath
XPath,全称XML Path Language,即XML路径语言,它是在XML语言中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。
在上一篇文章中讲述了正则表达式的使用方法,正则表达式的难度还是比较大的,如果不花足够多的时间去做的话还是比较难的,所以今天就来分享比正则简单的内容,方便大家接下来的学习。
XPath常用规则
XPath的规则是非常丰富的,本篇文章无法一次性全部概括,只能为大家介绍几个常用的规则。
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从当前节点选取直接子节点 |
// | 从当前节点选取子孙节点 |
. | 选取当前子节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
准备工作
在使用之前得先安装好lxml这个库,如果没有安装请参考下面的安装方式。
pip install lxml
案例导入
现在通过实例来xpath对网页解析的过程
from lxml import etreetext = '''
<div>
<ul>
<li class="item-0"><a href="link1.h