爬虫入门指南:学习爬虫的基础知识和技巧

news/2024/11/30 9:30:28/

文章目录

  • 爬虫基础知识
        • 什么是爬虫?
        • 爬虫的工作原理
        • 爬虫的应用领域
  • 爬虫准备工作
        • 安装Python
        • 安装必要的库和工具
  • 网页解析与XPath
        • 网页结构与标签
        • CSS选择器与XPath
        • Xpath 语法
            • XPath的基本表达式:
            • XPath的谓语(Predicate):
            • XPath的轴(Axis):
            • XPath的运算符:
            • XPath的函数:
        • 使用XPath解析网页
  • 未完待续...

爬虫基础知识

爬虫基础知识

什么是爬虫?

什么是爬虫

爬虫是一种自动化程序,用于从互联网上获取数据。它通过模拟浏览器行为,访问指定的网页,并从中提取所需的信息。爬虫工作的核心是发送HTTP请求、获取网页内容、解析网页结构并提取数据。

爬虫的工作原理

爬虫的工作原理

爬虫的工作原理可以分为以下几个步骤:

  • 发送HTTP请求:爬虫通过发送HTTP请求来访问目标网页。
  • 获取网页内容:目标网站接收到请求后,会返回网页的HTML源代码作为响应。
  • 解析网页内容:爬虫利用解析技术(如XPath、正则表达式等)对HTML源代码进行解析,从中提取需要的信息。
  • 存储数据:爬虫将提取到的数据进行存储,可以保存到本地文件或写入数据库。

爬虫的应用领域

爬虫的应用领域

爬虫在各个领域都有广泛应用:

  • 数据采集与分析:爬虫可以用于采集互联网上的各种数据,如新闻、商品信息、股票数据等。这些数据可以用于后续的数据分析、挖掘和建模。
  • 搜索引擎:搜索引擎利用爬虫技术来获取互联网上的网页信息,并建立搜索索引,以提供给用户相关的搜索结果。
  • 舆情监测:企业或政府可以利用爬虫技术来监控社交媒体等平台上的舆情动态,及时获取和分析公众的意见和反馈。
  • 价格监测:电商平台可以利用爬虫定期监测竞争对手的商品价格,以调整自己的定价策略。
  • 其他领域:爬虫还广泛应用于个性化推荐系统、自然语言处理、机器学习等领域。

爬虫准备工作

爬虫准备工作

安装Python

爬虫通常使用Python进行开发,因此需要先安装Python。您可以从Python官方网站(https://www.python.org/)下载最新版本的Python,并按照安装向导进行安装。

安装必要的库和工具

爬虫开发中需要使用一些常用的库和工具来简化开发流程:

  • requests:用于发送HTTP请求和处理响应。可以通过pip install requests命令安装。
  • BeautifulSoup:一个优秀的HTML/XML解析库,可以方便地从网页中提取数据。可以通过pip install beautifulsoup4命令安装。
  • lxml:一个高性能的XML/HTML解析库,可以用于XPath解析。可以通过pip install lxml命令安装。

网页解析与XPath

网页解析与XPath

网页结构与标签

网页通常使用HTML(超文本标记语言)编写,它由一系列标签组成。标签用于定义网页的结构和呈现。常见的HTML标签有<html><head><body><div><p>等等。通过理解这些标签及其嵌套关系,可以更好地理解网页的结构。

CSS选择器与XPath

网页解析可以使用不同的方法,其中两种常见的方法是CSS选择器和XPath。

  • CSS选择器:CSS选择器是一种用于选择HTML元素的语法。它通过使用标签名、类名、ID等属性,可以方便地定位到指定的元素。例如,通过.classname选择类名为classname的元素,通过#id选择ID为id的元素。

  • XPath:XPath是一种用于在XML和HTML文档中进行选择的语言。XPath使用路径表达式来选择节点或节点集合。例如,使用//表示选择从根节点开始的所有节点,使用/表示选择当前节点的子节点,使用[]表示筛选条件等。

Xpath 语法

XPath的基本表达式:
# 选择所有名为"book"的节点
xpath_expression = "//book"# 选择根节点下的所有名为"title"的子节点
xpath_expression = "/root/title"# 选择当前节点
xpath_expression = "."# 选择当前节点的父节点
xpath_expression = ".."
  • nodename:选择指定名称的节点。
  • //nodename:选择文档中所有匹配名称的节点。
  • /:从根节点开始选择。
  • .:选择当前节点。
  • ..:选择当前节点的父节点。
XPath的谓语(Predicate):

谓语用于进一步筛选节点,可以使用一些条件进行过滤。

# 选择第2个名为"book"的节点
xpath_expression = "//book[2]"# 选择最后一个名为"title"的节点
xpath_expression = "//title[last()]"# 选择位置小于3的名为"book"的节点
xpath_expression = "//book[position()<3]"# 选择具有属性lang的名为"book"的节点
xpath_expression = "//book[@lang]"# 选择属性lang的值为"en"的名为"book"的节点
xpath_expression = "//book[@lang='en']"# 选择文本内容为"Python"的名为"title"的节点
xpath_expression = "//title[text()='Python']"# 选择属性lang包含"en"的名为"book"的节点
xpath_expression = "//book[contains(@lang, 'en')]"# 选择属性lang以"en"开始的名为"book"的节点
xpath_expression = "//book[starts-with(@lang, 'en')]"# 选择属性lang以"en"结束的名为"book"的节点
xpath_expression = "//book[ends-with(@lang, 'en')]"
  • []:用于定义谓语条件。
  • [n]:选择第n个节点。
  • [last()]:选择最后一个节点。
  • [position()<n]:选择位置小于n的节点。
  • [@attribute]:选择具有指定属性的节点。
  • [@attribute='value']:选择具有指定属性值的节点。
  • [text()='value']:选择具有指定文本值的节点。
  • [contains(@attribute, 'value')]:选择属性包含特定值的节点。
  • [starts-with(@attribute, 'value')]:选择属性以特定值开始的节点。
  • [ends-with(@attribute, 'value')]:选择属性以特定值结束的节点。
XPath的轴(Axis):

轴用于在节点之间建立关联,常见的轴包括:

# 选择所有祖先节点
xpath_expression = "//book/ancestor::node()"# 选择所有祖先节点和当前节点自身
xpath_expression = "//book/ancestor-or-self::node()"# 选择当前节点的属性节点
xpath_expression = "//book/attribute::node()"# 选择当前节点的所有子节点
xpath_expression = "//book/child::node()"# 选择当前节点的所有后代节点
xpath_expression = "//book/descendant::node()"# 选择当前节点的所有后代节点和自身
xpath_expression = "//book/descendant-or-self::node()"# 选择当前节点之后的所有节点
xpath_expression = "//book/following::node()"# 选择当前节点之后的所有同级节点
xpath_expression = "//book/following-sibling::node()"# 选择当前节点的父节点
xpath_expression = "//book/parent::node()"# 选择当前节点之前的所有节点
xpath_expression = "//book/preceding::node()"# 选择当前节点之前的所有同级节点
xpath_expression = "//book/preceding-sibling::node()"# 选择当前节点
xpath_expression = "//book/self::node()"
  • ancestor:选择所有祖先节点。
  • ancestor-or-self:选择所有祖先节点和当前节点自身。
  • attribute:选择当前节点的属性节点。
  • child:选择当前节点的所有子节点。
  • descendant:选择当前节点的所有后代节点。
  • descendant-or-self:选择当前节点的所有后代节点和自身。
  • following:选择当前节点之后的所有节点。
  • following-sibling:选择当前节点之后的所有同级节点。
  • namespace:选择当前节点的命名空间节点。
  • parent:选择当前节点的父节点。
  • preceding:选择当前节点之前的所有节点。
  • preceding-sibling:选择当前节点之前的所有同级节点。
  • self:选择当前节点。
XPath的运算符:

XPath支持使用运算符进行条件筛选,常见的运算符包括:

# 判断两个值是否相等
xpath_expression = "//book[price=10]"# 判断两个值是否不相等
xpath_expression = "//book[price!=10]"# 判断一个值是否小于另一个值
xpath_expression = "//book[price<10]"# 判断一个值是否大于另一个值
xpath_expression = "//book[price>10]"# 判断一个值是否小于等于另一个值
xpath_expression = "//book[price<=10]"# 判断一个值是否大于等于另一个值
xpath_expression = "//book[price>=10]"# 用于逻辑与操作
xpath_expression = "//book[price=10 and lang='en']"# 用于逻辑或操作
xpath_expression = "//book[price=10 or lang='en']"# 用于逻辑非操作
xpath_expression = "//book[not(price=10)]"
  • =:判断两个值是否相等。
  • !=:判断两个值是否不相等。
  • <:判断一个值是否小于另一个值。
  • >:判断一个值是否大于另一个值。
  • <=:判断一个值是否小于等于另一个值。
  • >=:判断一个值是否大于等于另一个值。
  • and:用于逻辑与操作。
  • or:用于逻辑或操作。
  • not:用于逻辑非操作。
XPath的函数:

XPath提供了一些内置函数,可以在选择节点时进行一些操作和转换。常用的函数包括:

# 选择节点的文本内容
xpath_expression = "//title/text()"# 选择节点的名称
xpath_expression = "name(//book)"# 连接多个字符串
xpath_expression = 'concat("Hello", " ", "World")'# 判断一个字符串是否包含另一个字符串
xpath_expression = 'contains("Hello World", "Hello")'# 判断一个字符串是否以另一个字符串开始
xpath_expression = 'starts-with("Hello World", "Hello")'# 判断一个字符串是否以另一个字符串结束
xpath_expression = 'ends-with("Hello World", "World")'# 获取字符串的长度
xpath_expression = 'string-length("Hello World")'# 移除字符串两端的空白字符并压缩中间的空白字符
xpath_expression = 'normalize-space("   Hello    World   ")'# 计算节点的数量
xpath_expression = 'count(//book)'
  • text():选择节点的文本内容。
  • name():选择节点的名称。
  • concat():连接多个字符串。
  • contains():判断一个字符串是否包含另一个字符串。
  • starts-with():判断一个字符串是否以另一个字符串开始。
  • ends-with():判断一个字符串是否以另一个字符串结束。
  • string-length():获取字符串的长度。
  • normalize-space():移除字符串两端的空白字符并压缩中间的空白字符。
  • count():计算节点的数量。

使用XPath解析网页

使用XPath解析网页可以方便地定位和提取需要的数据。以下是使用Python的lxml库进行XPath解析csdn中python专栏的示例代码:

import requests
from bs4 import BeautifulSoup
import time
from selenium import webdriver# 发送HTTP请求获取网页内容
url = "https://blog.csdn.net/nav/python"# 使用Chrome浏览器,需提前安装ChromeDriver并配置环境变量
driver = webdriver.Chrome()# 打开网页
driver.get(url)# 等待网页内容加载完成(根据实际情况调整等待时间)
time.sleep(3)# 获取完整的网页内容
html = driver.page_source# 关闭浏览器
driver.quit()# 解析网页内容
soup = BeautifulSoup(html, "lxml")# 提取所需信息
articles = soup.select(".Community .active-blog")
# print(articles)
for article in articles:title = article.select_one(".content .desc").text.strip()author = article.select_one(".operation .operation-c span").text.strip()print("标题:", title)print("作者:", author)print("-" * 50)

代码中,我们使用requests库发送HTTP请求获取网页内容,然后使用lxml库的etree模块将HTML源代码转换为可解析的树形结构。接下来,我们使用XPath路径表达式来选择所需的节点,并通过xpath()方法提取出标题和作者等信息。
效果如图:
在这里插入图片描述

未完待续…

python 爬虫


http://www.ppmy.cn/news/636539.html

相关文章

win10无限重启_让迷你掌上电脑更具生产力,GPD安装 Win10+Ubuntu双系统

作为一名电气工程师(偶尔也充当程序员的角色)&#xff0c;刚子一直想拥有一台小巧便携续航强的笔记本电脑&#xff0c;以应对经常出差调试的任务。市场上常见的笔记本电脑一般都是13吋以上的&#xff0c;背出去实在太沉重&#xff0c;轻薄本很多接口不全&#xff0c;又需要扩展…

[python][gradio]gr.State用法

gr.State是一个不可见的控件&#xff0c;目的是在后台存储一些变量方便访问和交互。 官方说明&#xff1a; 特殊的隐藏组件&#xff0c;用于存储同一用户运行演示时的会话状态。当用户刷新页面时&#xff0c;State 变量的值被清除。 实例&#xff1a; import gradio as grd…

linux lib目录找不到,linux中jpeglib库文件我安装了,但是我运行自己写的代码总是找不到这个库...

首先&#xff0c;找到你的VC6.0的安装路径(就是你安装到哪里了&#xff0c;不是你安装包setup.exe的路径)&#xff0c;假设按照默认路径安装的话&#xff0c;头文件和库文件的路径应该是这样子的&#xff1a; include files: C:\Program Files\Microsoft Visual Studio\VC98\IN…

安装gpd(点云库)相关

看这篇文章&#xff1a; 机器人6D抓取姿态检测(GPD)&#xff0d;Ubuntu 16.04 ROS Kinetic RGBD CPU版本的实现 https://blog.csdn.net/Eeko_x/article/details/104835154 记住一定不要装带有caffe框架的gpd&#xff0c;下载这个https://github.com/sharronliu/gpd/tree/…

gpd微型计算机,获《微型计算机》称赞,GPD MicroPC工程师的随身利器

对于喜爱数码的小伙伴来说&#xff0c;《微型计算机》这本杂志应该不陌生了。它是一本专注于电脑硬件技术与产品&#xff0c;向小伙伴们介绍电脑硬件全面科普科技与市场的一款大众化普及性杂志&#xff0c;在电脑玩家心目中可以说堪称宝典。最近《微型计算机》杂志上就详细测评…

GPD源码分析

代码流程 目录 代码流程 GPD的使用-输入输出 gpd使用示例 gpd算法框架 构造函数-GraspDetector(const std::string &config_filename) 点云预处理 抓取检测 代码处理流程 采样通过generateGraspCandidateSets函数产生抓取姿态通过工作空间过滤抓取姿态-std::vecto…

matlab模拟gpd,利用Matlab进行极值统计的一个例子——GPD方法.PDF

利用Matlab进行极值统计的一个例子——GPD方法 利用Matlab 进行极值统计的一个例子——GPD 方法 科研菜鸟 /u/sanshiphy 数据和例子均来自于S. Coles, An introduction to statistical modeling of extreme values, Springer, 2007 一、 数据 数据是south-west England 这个地方…