Python爬虫应用实战案例-xpath正则表达式使用方法,爬取精美壁纸

news/2024/11/29 5:35:00/

使用XPath

XPath,全称XML Path Language,即XML路径语言,它是在XML语言中查找信息的语言。它最初是用来搜寻XML文档的,但是它同样适用于HTML文档的搜索。

在上一篇文章中讲述了正则表达式的使用方法,正则表达式的难度还是比较大的,如果不花足够多的时间去做的话还是比较难的,所以今天就来分享比正则简单的内容,方便大家接下来的学习。

XPath常用规则

XPath的规则是非常丰富的,本篇文章无法一次性全部概括,只能为大家介绍几个常用的规则。

表达式描述
nodename选取此节点的所有子节点
/从当前节点选取直接子节点
//从当前节点选取子孙节点
.选取当前子节点
..选取当前节点的父节点
@选取属性

准备工作

在使用之前得先安装好lxml这个库,如果没有安装请参考下面的安装方式。

pip install lxml

案例导入

现在通过实例来xpath对网页解析的过程

from lxml import etreetext = '''
<div>
    <ul>
        <li class="item-0"><a href="link1.h

http://www.ppmy.cn/news/246589.html

相关文章

Python爬虫爬取-爬取某个网页的精美壁纸

前言&#xff1a;学了python爬虫&#xff0c;那必须搞点好康的&#xff01; 先导入需要用到的库 import requests from bs4 import BeautifulSoup import time 1.针对图片网&#xff0c;先去源代码里面&#xff0c;找它的网址。 我是用的wallhaven网站的网址 然后得到了一…

vs code设置精美壁纸(已成功)

啊&#xff01;我先展示一下效果嗷&#xff01;&#xff01;&#xff01; 图片是在另外一个博客找的&#xff0c;当然在知乎上搜索壁纸有一大堆嗷&#xff01; 小伙伴快来设置&#xff01; emmm,没有原来的图片了&#xff0c;只能让你们看一下带着我加的文字的图片对比一下&am…

python唯美壁纸_营造一个好的编码心情-python抓取mac精美壁纸

如图&#xff0c;一个好的工作环境&#xff0c;可以让心情好不少 抓取的是爱壁纸的资源&#xff0c;它们最多只提供20页一个类别&#xff0c;但是一页有60张。 总共有11个类别&#xff0c;就是有20x60x11张。我这里只筛选了2种类别&#xff0c;看你需要了。 话不多说&#xff0…

如何利用 Python 爬取 LOL 高清精美壁纸?

作者 | 阿拉斯加 来源 | 杰哥的IT之旅 一、背景介绍 随着移动端的普及出现了很多的移动 APP&#xff0c;应用软件也随之流行起来。最近看到英雄联盟的手游上线了&#xff0c;感觉还行&#xff0c;PC 端英雄联盟可谓是爆火的游戏&#xff0c;不知道移动端的英雄联盟前途如何&…

如何导出Windows聚焦的精美壁纸

如何导出Windows聚焦的精美壁纸 文章目录 如何导出Windows聚焦的精美壁纸1、什么是windows聚焦2、导出windows聚焦壁纸 1、什么是windows聚焦 你可以把「Windows 聚焦」这个功能理解为微软为 Windows 10 内置的「锁屏壁纸自动换」功能&#xff0c;开启这个功能后 Windows 10 会…

python 日历壁纸_Excel+Python=精美壁纸日历 任意DIY

广东的太阳还是那么大&#xff0c;隔着玻璃都能感受到热浪。 明明前不久才立夏(明明已经过去三个月!!) 时间跑&#xff0c;日程赶。 昨日又迎来了立秋&#xff0c;正在放暑假的童靴是不是有点忘记时间了呢~ 什么&#xff1f;真的忘记了&#xff1f;没关系&#xff0c;今日小编为…

记一次binlog恢复Mysql某张表数据的过程

1、备份数据库&#xff0c;非常重要 2、要用户不能操作&#xff08;如果不能停止&#xff0c;可以新建一个库&#xff0c;所有的binlog执行操作在新库执行&#xff09;。 3、登录服务器&#xff1b; 4、获取Mysql数据路径 cat /etc/my.cnf.d/mysql-server.cnf5、进入当前目录…

python唯美壁纸_用Python下载momentum中的精美壁纸

#! /usr/bin/python # encodingutf-8 """ desc 下载momentum中的精美壁纸 api https://d3cbihxaqsuq0s.cloudfront.net/ author Tan """ import requests import re import os import urllib import xml.dom.minidom def download(…