爬虫解析——Xpath

ops/2024/9/24 0:20:15/

目录

前言

一.Xpath简介

二.符号说明

三.结语


 

前言

随着请求的学习,我们已经知道了如何获取网页的html源代码了,那么接下来就是将自己想要的或者他人需要的部分找到并解析出来。

当然也别忘了,要对这些拿到了的数据进行处理,处理成一个有规律能看懂的或者他人需要的样子。

本节的重点皆在对获取的源代码进行解析的方法Xpath的一个解读。

 

一.Xpath简介

 

XPath是一种用于在XML文档中定位节点的语言,它可以用于从XML文档中提取数据,以及在XML文档中进行搜索和过滤操作。它是W3C标准的一部分,被广泛应用于XML文档的处理和分析。

XPath使用路径表达式来描述节点的位置,这些路径表达式类似于文件系统中的路径。路径表达式由一个或多个步骤(step)组成,每个步骤描述了一个节点或一组节点。步骤可以使用关系运算符(如/和//)来连接,以便描述更复杂的节点位置。

XPath还提供了一些内置函数和运算符,可以对XML文档中的数据进行操作和计算。例如,可以使用XPath的数学函数来计算节点的数值,或使用字符串函数来处理节点的文本内容。

在Python中,XPath可以使用lxml库来实现。lxml提供了一个etree模块,该模块包含了XPath的实现,可以方便地对XML文档进行解析和操作,同时支持XPath语法。

 

二.符号说明

表达式描述
nodename选取此节点的所有子节点
/从根节点选取(取子节点)
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置(取子孙节点)
.选取当前节点
..选取当前节点的父亲点
@选取属性

 

 

三.结语

根据符号的说明我们在下一篇给出案例对豆瓣电影网的一些电影名称,电影图片进行爬取和解析。

敬请期待。

 

 


http://www.ppmy.cn/ops/6763.html

相关文章

mac qt android开发环境

1,安装Android Studio 下载 Android Studio 和应用工具 - Android 开发者 | Android Developers (google.cn)

AI-Agent入门

主要参考资料 AI Agent(或者LLM Agent)深度讲解——组成、方法、案例及展望: https://zhuanlan.zhihu.com/p/676544930 产品经理研读:Agent的九种设计模式(图解代码): https://mp.weixin.qq.com/s/9CRzuNgnwyq3-tkqnTA6TA 特工宇宙与产品二姐…

BOM事件的重点——之转生在异世界学前端

每个事件都有事件源,事件类型,事件处理程序 事件源指触发事件的元素,事件类型值什么事件,事件处理程序指事件触发要执行的代码 每一个事件类型都有一个事件对象,事件对象是事件源触发产生的对象 事件对象其实指的是…

【CVPR2023】《A2J-Transformer:用于从单个RGB图像估计3D交互手部姿态的锚点到关节变换网络

这篇论文的标题是《A2J-Transformer: Anchor-to-Joint Transformer Network for 3D Interacting Hand Pose Estimation from a Single RGB Image》,作者是Changlong Jiang, Yang Xiao, Cunlin Wu, Mingyang Zhang, Jinghong Zheng, Zhiguo Cao, 和 Joey Tianyi Zhou…

第四十四节 Java 8 函数式接口

函数式接口(Functional Interface)就是一个具有一个方法的普通接口。 函数式接口可以被隐式转换为lambda表达式。 函数式接口可以现有的函数友好地支持 lambda。 JDK 1.8之前已有的函数式接口: java.lang.Runnablejava.util.concurrent.Callablejava.security.PrivilegedAc…

* 玩转数据魔方Plotly Express实战8例

大家好!今天我们要一起探索Plotly Express这个超级棒的数据可视化神器。想象一下,你的数据故事能以炫酷图表的形式跃然纸上,是不是很兴奋?Plotly Express就像魔法棒,让复杂数据瞬间变得生动起来。接下来,让…

论文解读:(CoCoOP)Conditional Prompt Learning for Vision-Language Models

文章汇总 存在的问题 CoOp的一个关键问题:学习到的上下文不能推广到同一数据集中更广泛的未见类,这表明CoOp过拟合了训练期间观察到的基本类。 动机 为了解决弱泛化问题,我们引入了一个新的概念:条件提示学习。关键思想是使提示取决于每个输入实例(图…

机器学习基础入门(二)(线性回归与成本函数)

目录 线性回归模型 问题 过程 模型f的选择 回归和分类比较 机器学习术语 模型训练 成本函数 介绍 设计成本函数 直观化理解成本函数 线性回归模型 问题 已知一系列房子的大小以及其对应的价格的数据,要求是已知房子大小预测其房子的价格 过程 一、根…