python爬虫爬取某图书网页实例

devtools/2024/10/18 21:45:46/

文章目录

      • 导入相应的库
      • 正确地设置代码的基础部分
      • 设置循环遍历
      • 遍历URL
      • 保存图片和文档
      • 全部代码即详细注释

下面是通过requests库来对ajax页面进行爬取的案例,与正常页面不同,这里我们获取url的方式也会不同,这里我们通过爬取一个简单的ajax小说页面来为大家讲解。(注:结尾附赠全部代码与详细注释)

导入相应的库

爬取数据必须有相应的库,这里我们使用爬虫脚本中常用的几个Python库:os.path、fake_useragent 和 requests。
1.os.path:

  • 这个模块主要用于处理文件和目录的路径。它提供了一系列的功能来进行路径的拼接、拆分、查询等操作,以确保路径的跨平台兼容性(比如Windows和Unix/Linux系统的路径分隔符不同)。
  • 爬虫中,os.path 通常用于构建本地文件系统的路径,以便保存从网络上下载的图片、文本数据等。

2.fake_useragent:

  • 这个库用于生成随机的、看起来像是真实浏览器的User-Agent字符串。User-Agent是一个在HTTP请求中发送给服务器的头部信息,它告诉服务器发起请求的客户端(通常是浏览器)的类型、版本和操作系统等信息。
  • 爬虫中,由于许多网站会检查User-Agent来识别爬虫请求并阻止它们,因此使用fake_useragent可以帮助爬虫绕过这种简单的反爬虫机制。

3.requests:

  • requests是Python中非常流行的HTTP库,用于发送HTTP/1.1请求。它提供了一个简单易用的API,用于处理各种HTTP请求,如GET、POST、PUT、DELETE等。
  • 爬虫中,requests库是发送网络请求并获取响应的主要工具。它支持会话(Session)对象、HTTPS请求、文件上传、Cookie处理、重定向、连接池等功能,非常适合用于构建复杂的爬虫系统。
python">import os.path  
import fake_useragent  
import requests  

正确地设置代码的基础部分

这里我们生成一个随机的User-Agent、检查并创建目录以便储存爬取的图片、以及打开(或创建)一个文本文件来保存数据。

python">import os.path  
import fake_useragent  
import requests  # 判断是否是直接运行该脚本  
if __name__ == '__main__':  head = {"User-Agent": fake_useragent.UserAgent().random}  if not os.path.exists("./biqugePic"):  os.mkdir("./biqugePic")  f = open("./biquge.txt", 'w', encoding='utf8')  

设置循环遍历

循环遍历URL(这里为大家提供具体url的获取方法,并循环了1至9页的数据为大家做案例),并发送了带有随机User-Agent的GET请求。这是爬虫中常见的做法,用于从网站的不同页面获取数据。

python"> for i in range(1, 10):  url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  resp = requests.get(url, headers=head)  

首先进入网页,点击F12打开自定义与控制工具,点击fecth/XHR,此时显示部分为空白。在这里插入图片描述
这个时候我们滚动鼠标滚轮,就会出现相应的url,这里的https://www.bqgui.cc/json?sortid=1&page=2,其中尾部2表示滚轮页面第二页,想要获取1至9我们只需要进行一个简单的循环遍历即可。

在这里插入图片描述

遍历URL

遍历从URL获取的JSON响应,该响应包含多个项目。对于每个项目,您都提取了图片URL、文章名、作者和简介,并计划将这些信息打印到控制台以及下载图片和保存文本信息到文件。

python"> for item in resp.json():  # 从每个JSON对象中提取所需的信息  img_url = item['url_img']  articlename = item['articlename']  author = item['author']  intro = item["intro"]  # 打印提取的信息到控制台  print(img_url, author, articlename, intro)  # 发送另一个GET请求到图片URL,以获取图片内容  img_rest = requests.get(img_url, headers=head)  

在这里插入图片描述

保存图片和文档

设置代码来保存图片到以文章名命名的文件中,并将作者、文章名和简介信息写入到"./biquge.txt"文件中。

python">with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  
# 将图片内容写入文件  
fp.write(img_rest.content)  
# 将作者、文章名和简介信息写入到"./biquge.txt"文件中  
f.write(author + '#' + articlename + '#' + intro + "\n")

全部代码即详细注释

python">import os.path  
import fake_useragent  
import requests  # 判断是否是直接运行该脚本  
if __name__ == '__main__':  # 创建一个包含随机User-Agent的HTTP请求头  head = {"User-Agent": fake_useragent.UserAgent().random}  # 检查是否存在名为"./biqugePic"的文件夹,如果不存在则创建它  if not os.path.exists("./biqugePic"):  os.mkdir("./biqugePic")  # 以写入模式打开(或创建)一个名为"./biquge.txt"的文件,用于保存数据  f = open("./biquge.txt", 'w', encoding='utf8')  # 循环从第1页到第9页(注意,range函数是左闭右开的,所以不包括10)  for i in range(1, 10):  # 构造请求URL,这里假设每个页面的数据都可以通过此URL以JSON格式获取  url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  # 发送GET请求到URL,并带上之前创建的请求头  resp = requests.get(url, headers=head)  # 假设服务器返回的是JSON格式的数据,我们遍历这些数据  # 注意:这里有个潜在的问题,因为内部循环的变量也使用了'i',这会覆盖外层循环的'i'  # 为了避免混淆,应该使用另一个变量名,比如'item'  for item in resp.json():  # 从每个JSON对象中提取所需的信息  img_url = item['url_img']  articlename = item['articlename']  author = item['author']  intro = item["intro"]  # 打印提取的信息到控制台  print(img_url, author, articlename, intro)  # 发送另一个GET请求到图片URL,以获取图片内容  img_rest = requests.get(img_url, headers=head)  # 打开(或创建)一个文件,用于保存图片,文件名基于文章名  with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  # 将图片内容写入文件  fp.write(img_rest.content)  # 将作者、文章名和简介信息写入到"./biquge.txt"文件中  f.write(author + '#' + articlename + '#' + intro + "\n") 

注意:

  1. 代码假设了服务器返回的JSON结构是固定的,并且每个对象都包含’url_img’, ‘articlename’, ‘author’, 和 'intro’键。
  2. 在实际应用中,网络请求可能会失败(如404、500等HTTP错误),应该添加错误处理逻辑。
  3. 由于网络延迟和带宽限制,大量请求可能会导致性能问题或被服务器封锁。
  4. 使用fake_useragent生成随机User-Agent可以帮助绕过一些简单的反爬虫机制,但不一定对所有网站都有效。

http://www.ppmy.cn/devtools/95065.html

相关文章

设计模式六大原则之:单一职责原则

1. 单一职责简介 设计模式中的单一职责原则(‌Single Responsibility Principle, SRP)‌是面向对象设计中的一个基本原则,‌它强调一个类应该仅有一个引起它变化的原因。‌换句话说,‌一个类应该负责一组相对独立且紧密相关的职责…

软件需求设计分析报告(Word原件)

第1章 序言 第2章 引言 2.1 项目概述 2.1.1 项目背景 2.1.2 项目目标 2.2 编写目的 2.3 文档约定 2.4 预期读者及阅读建议 第3章 技术要求 3.1 软件开发要求 3.1.1 接口要求 3.1.2 系统专有技术 3.1.3 查询功能 3.1.4 数据安全 3.1.5 可靠性要求 3.1.6 稳定性要求 3.1.7 安全性…

从JVM分析对象创建的过程

从JVM分析对象创建的过程 如图: 1.类加载检查 虚拟机遇到一条new指令时,首先去检查这个指令的参数是否能在称量翅中定位到一个类的符号引用,并且检查这个符号引用代表的类是否已经被加载、解析和初始化过。如果没有,先对这个类…

RPA财务机器人是什么,RPA的具体应用场景有哪些?| 实在RPA研究

越来越多的人工智能及超自动化技术在企业财务工作中得以普及应用,以提升财务工作效率,促进财务部门实现全面数字化转型。 RPA财务机器人是什么? RPA,即机器人流程自动化(Robotic Process Automation)&#…

HCIP | 重发布实验

要求: 1.如图搭建网络拓扑,所有路由器各自创建一个环回接口,合理规划IP地址 2.R1-R2-R3-R4-R6之间使用OSPF协议,R4-R5-R6之间使用RIP协议 3.R1环回重发布方式引入OSPF网络 4.R4/R6上进行双点双向重发布 5.分析网络中出现路由…

基于深度学习的跨领域生成

基于深度学习的跨领域生成是生成式模型技术的重要方向,旨在将一个领域中的数据或信息转化为另一领域的表现形式。这种技术在艺术、设计、内容创作等领域有广泛应用,并不断发展出新颖的应用场景。下面是对这一主题的详细介绍: 1. 背景与动机 …

CRM客户关系管理系统

本文来自:CRM客户关系管理系统 - 源码1688 应用介绍 基于ThinkPHPFastAdmin开发的CRM客户关系管理系统 后台演示:https://crmdemo.rycl.vip/admin11.php uniapp小程序演示: 搭建教程1,框架离线安装:https://yuanma168…

flink车联网项目前篇:数据开发(第66天)

系列文章目录 03_数据仓库开发 开发规范 1.1 数据库划分规范 1.2 表命名规范 1.3 表字段类型规范开发前准备 3.1 业务系统表 3.2 数据导入 04_维度主题相关表结构 1.1 dim_area - 城市字典表 1.2 dim_car_info - 车辆信息表 1.3 dim_car_vendor - 车队信息表 1.4 dim_date_wo…