接上文
安装和导入
安装:
pip install lxml
导入:
python">from lxml import etree
解析字符串
对字符串解析得到一个<class 'lxml.etree._Element'>对象
python">html = etree.HTML(html_data)
执行xpath
返回值类型可能多种多样
python">result = html.xpath("//li/a/text()") # 字符串
result = html.xpath("//li/a[href='link1.html']") #etree.elememt对象
result = html.xpath("//li/@class") # 列表
注意
如果我们执行了以上的第二行语句,对得到的再次使用xpath时应在xpath语句前加一个.,这样才会从当前对象的范围内查找,否则会默认从全文查找
python">result = html.xpath("//li/a[href='link1.html']")
result1 = html.xpath(".//div") #从当前对象范围查找