Python爬虫爬取网页小说

embedded/2024/11/25 2:18:59/

分析

注意:不同小说url不同,不同小说需采用的正则也不同
1.安装requests包

python">pip install requests

2.导入必要的库
re模块用于进行正则表达式相关的操作,比如使用正则表达式在获取到的网页文本内容中匹配提取特定格式的信息。
resquests模块用于进行正则表达式相关的操作,比如使用正则表达式在获取到的网页文本内容中匹配提取特定格式的信息。
json模块用于处理 JSON 数据,方便将整理好的数据结构(字典)转换为 JSON 格式并保存到文件中。

小说选取

这里选取三国演义作为教学案例
在这里插入图片描述
检查页面源代码可得目录采集地址:

https://sanguo.5000yan.com/

目录采集代码实现

注意:不同小说url不同,不同小说需采用的正则也不同

python">#导入必要的库
import re
import requests
import json
url="https://sanguo.5000yan.com/"
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
#发起伪造请求
response=requests.get(url,headers=headers)
#设置响应编码
response.encoding='UTF-8'
#查看相应数据
content=response.text#正则表达式匹配
p=r'<a target="(.*?)"\s+ href="(.*?)">(第.*?)</a>'
#提取匹配到的数据到列表中
chs=re.findall(p,content,re.DOTALL)chapter=dict()
for ch in chs:chapter[ch[2]]=ch[1]
#最终的章节和链接数据
print(chapter)
#保存数据为json格式到文件
#文件可替换为自己的文件
with open('C:/Users/33692/Desktop/程序/chapter/mulu.txt',mode='wt',encoding='UTF-8') as file:json.dump(chapter,file)

部分代码解析

python">chs=re.findall(p,content,re.DOTALL)

re.findall 是 re 模块提供的用于在字符串中基于正则表达式进行全面查找匹配的函数,其基本语法格式为 re.findall(pattern, string, flags=0),各参数含义如下:

pattern:对应代码中的 p,是一个定义好的正则表达式模式,用于精确描述要查找的文本的具体样式、特征等。例如,若 p 为r"<div>.*?</div>,表示要查找所有符合以 div开头、以 /div结尾的内容(这里 .*? 是非贪婪匹配模式,用于获取中间的文本内容)。
string:就是这里的 content,代表要进行查找操作的目标文本字符串。在这段代码的上下文中,content 通常是通过向网页发送请求获取到的网页源代码等文本信息(前面通过 response.text 获取到的网页文本内容),但也可以是其他任意符合字符串格式的文本数据,具体取决于应用场景。
flags:为可选参数,用于设定正则表达式的匹配行为,这里使用的 re.DOTALL 就是其中一种常用的标志选项。

re.DOTALL:
在正则表达式里,默认情况下 .(点号)这个元字符只能匹配除换行符之外的任意单个字符。但在实际处理类似网页 HTML 代码、文档等具有多行结构的文本时,很多时候希望 . 可以匹配包括换行符在内的所有字符,这时就需要使用 re.DOTALL 标志来改变 . 的默认匹配行为。

章节采集代码实现

python">import requests,re
import time,random
import json
#加载需要采集的目录
with open('C:/Users/33692/Desktop/程序/chapter/mulu.txt',encoding='utf-8') as file:chs=json.load(file)
headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
#遍历循环,发起伪造请求
for title,url in chs.items():print(f"准备采集:{title}")#发起伪造请求response=requests.get(url,headers=headers)#设置编码格式response.encoding="utf-8"html=response.text#正则匹配p=r'<div class="grap"><div>(.*?)</div></div>'content=re.findall(p,html,re.DOTALL)text=content[0]#正则去掉无关字符:\n\t等new_text = re.sub(r'[\r\n\t&lrdquoiv<>nbsp/;]', '', text)#转换为破折号clean_text = new_text.replace('&mdash;&mdash;', '——')with open('C:/Users/33692/Desktop/程序/chapter/三国演义.txt',mode="at",encoding='utf-8') as file:#保存文件file.write("\n\n"+title+"\n\n")file.write(clean_text)file.write("\n\n-------------------\n\n")#模拟用户请求,每次休眠5-10秒time.sleep(random.randint(1,5))print(f"{title}采集完成")

结果截图

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/embedded/140264.html

相关文章

物业管理系统的设计和实现

一、项目背景 物业管理系统在现代城市化进程中起着至关重要的作用。 随着居民生活水平的提高和信息技术的迅猛发展&#xff0c;传统的物业管理模式已不能满足业主和管理者的需求。 为了提高管理效率、降低运营成本、提升服务质量&#xff0c;设计并实现一个集成化、智能化的物业…

什么是驱动芯片?

驱动芯片&#xff08;Driver Chip&#xff09;是一种集成电路芯片&#xff0c;主要用于驱动和控制各种电子设备或系统中的外部负载&#xff0c;如电机、显示屏、音频设备、LED 灯等&#xff0c;以下是关于驱动芯片的详细介绍&#xff1a; 主要功能 信号转换与放大&#xff1a;…

windows C#-异步编程模型(上)

通过使用异步编程&#xff0c;你可以避免性能瓶颈并增强应用程序的总体响应能力。 但是&#xff0c;编写异步应用程序的传统技术可能比较复杂&#xff0c;使它们难以编写、调试和维护。 C# 支持简化的方法&#xff0c;即异步编程&#xff0c;它利用 .NET 运行时中的异步支持。…

鸿蒙HarmonyOS学习笔记(2)

基本语法概述 如下图所示&#xff0c;当开发者点击按钮时&#xff0c;文本内容从“Hello World”变为“Hello ArkUI”。 ArkTS的基本组成 说明 自定义变量不能与基础通用属性/事件名重复。 装饰器&#xff1a; 用于装饰类、结构、方法以及变量&#xff0c;并赋予其特殊的含义…

超文本传输协议(HTTP)与超文本传输安全协议(HTTPS)

一、HTTP 超文本传输协议&#xff08;HyperText Transfer Protocol&#xff0c;HTTP&#xff09;是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。 HTTP 是用于从互联网服务器传输超文本到本地浏览器或者另一个服务器的协议。 HTTP…

Android学生信息管理APP的设计与开发

1. 项目布局设计 页面1&#xff1a;学生信息添加页面 采用线性布局&#xff0c;页面中控件包含TextView、editView、Button等。 布局核心代码如下&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http…

单片机_简单AI模型训练与部署__从0到0.9

IDE&#xff1a; CLion MCU&#xff1a; STM32F407VET6 一、导向 以求知为导向&#xff0c;从问题到寻求问题解决的方法&#xff0c;以兴趣驱动学习。 虽从0&#xff0c;但不到1&#xff0c;剩下的那一小步将由你迈出。本篇主要目的是体验完整的一次简单AI模型部署流程&#x…

rust中解决DPI-1047: Cannot locate a 64-bit Oracle Client library问题

我们在使用rust-oracle crate连接oracle进行测试的过程中&#xff0c;会发现无法连接oracle&#xff0c;测试运行过程中抛出“DPI-1047: Cannot locate a 64-bit Oracle Client library”错误。该问题是由于rust-oracle需要用到oracle的动态连接库&#xff0c;我们通过安装orac…