利用爬虫爬取网页小说

devtools/2024/11/28 18:14:11/

需求分析

安装requests包

pip	install	requests

在这里插入图片描述

在这里插入图片描述

目录采集地址:
h t t p s : / / w w w . 3 b q g . c c / b o o k / 60417 / https://www.3bqg.cc/book/60417/ https://www.3bqg.cc/book/60417/
章节采集地址:
h t t p s : / / w w w . 3 b q g . c c / b o o k / 60417 / 1. h t m l https://www.3bqg.cc/book/60417/1.html https://www.3bqg.cc/book/60417/1.html

pycharm代码实现

python">#导入requests模块和re模块
import  requests,re#要爬取的网址
url="https://www.3bqg.cc/book/60417"#伪造请求#声明一个身份代理信息,随便进入一个网页检查——网络——标头即可找到User-Agent
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}
#发起一个伪造请求
# requests.get(url1,headers=headers)
#接收服务器返回的数据
response=requests.get(url,headers=headers)#设置响应编码
response.encoding="UTF-8"#查看响应数据
content=response.text
#print(content)
python">#正则提取章节名称和链接
p=r'<a href ="(.*?)"\>(第.*?)>'
chs=re.findall(p,content,re.DOTALL)
#print(chs)
#提取出来后章节链接与章节名在一个列表中

注意

re.DOTALL:这是一个标志,告诉正则表达式模块 .(点)元字符应该匹配包括换行符在内的任意字符。通常情况下,. 不匹配换行符,但当你使用 re.DOTALL 标志时,它将匹配任何字符,包括换行符。如果不使用 re.DOTALL 标志, . 不匹配换行符,所以无法匹配整个多行字符串。

re.findall 是 Python 的 re(正则表达式)模块中的一个函数,它的作用是在一个字符串中查找所有与正则表达式匹配的部分,并将它们作为一个列表返回。

python">#声明一个字典
chapter=dict()
for ch in chs:#以章节名做key,地址做valuechapter[ch[1]]="https://www.3bqg.cc"+ch[0]
#print(chapter)
#导入jasn模块
import json
with open('chapters.txt','wt',encoding='utf-8') as file:#将 chapter 字典转换为 JSON 格式的字符串,并将其写入到 file 变量所引用的文件中json.dump(chapter, file)#加载需要的目录
with open('chapters.txt',encoding='utf-8') as file:ac=json.load(file)#print(ac)#伪造请求
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}
import random,timefor title , url in ac.items():with open("道诡异仙.txt",mode="at",encoding='utf-8') as file:print(f"准备采集:{title}")#发起伪造请求res=requests.get(url,headers=headers)#设置数据编码res.encoding=("UTF-8")#分析数据格式consequence=res.text# print(consequence)#定义正则表达式,匹配数据a=r'<div id="chaptercontent"+\s+class="Readarea+\s+ReadAjax_content">(.*?)</div>'#打印获取的某一章的内容#第一种fangfa#content=re.findall(a,consequence,re.DOTALL)#print(content)#第二种方法# 只有一条数据,可以用re.searchcontent=re.search(a,consequence,re.DOTALL)#使用content.group()获取第一个捕获组的内容content=content.group(1)#print(content)#提取出汉字的正则表达式=r'[\u4e00-\u9fff]+'content2=re.findall(r'[\u4e00-\u9fff]+', content)content2="\n".join(content2)#print(content2)#保存到文件file.write("\n\n"+title+"\n\n")#标题file.write(content2)#内容time.sleep(random.randint(2,4))print(f"{title}章节采集完成")#测试,采集一次#break

结果

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/devtools/137728.html

相关文章

详细描述一下Elasticsearch更新和删除文档的过程?

大家好&#xff0c;我是锋哥。今天分享关于【详细描述一下Elasticsearch更新和删除文档的过程&#xff1f;】面试题。希望对大家有帮助&#xff1b; 详细描述一下Elasticsearch更新和删除文档的过程&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 E…

C++-qt经验

qt下载安装 【保姆级图文教程】QT下载、安装、入门、配置VS Qt环境-CSDN博客 qt项目打包成软件 QT项目打包成软件进行发布的三种方式_qt打包-CSDN博客

生产环境中,nginx 最多可以代理多少台服务器,这个应该考虑哪些参数 ?怎么计算呢

生产环境中&#xff0c;nginx 最多可以代理多少台服务器&#xff0c;这个应该考虑哪些参数 &#xff1f;怎么计算呢 关键参数计算方法评估步骤总结 在生产环境中&#xff0c;Nginx最多可以代理的服务器数量并没有一个固定的限制&#xff0c;它取决于多个因素&#xff0c;包括Ng…

Oracle-decode和case when的用法

-- case when 通用 功能比decode强大多了 -- decode 可以实现的 CASE WHEN都可以实现 -- decode 针对一个字段的值去判断 SELECT e.* ,DECODE(e.job, SALESMAN,销售员, PRESIDENT,董事长 ,分析师; --剩下的都是分析师 如果是确定的不建议这么写 ) AS new_job FROM em…

英语知识在线平台:Spring Boot技术应用

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

(笔记)简单了解ZYNQ

1、zynq首先是一个片上操作系统&#xff08;Soc&#xff09;&#xff0c;结合了arm&#xff08;PS&#xff09;和fpga&#xff08;PL&#xff09;两部分组成 Zynq系统主要由两部分组成&#xff1a;PS&#xff08;Processing System&#xff09;和PL&#xff08;Programmable L…

【人工智能】使用Python实现序列到序列(Seq2Seq)模型进行机器翻译

解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界 序列到序列(Sequence-to-Sequence, Seq2Seq)模型是解决序列输入到序列输出任务的核心架构,广泛应用于机器翻译、文本摘要和问答系统等自然语言处理任务中。本篇文章深入介绍 Seq2Seq 模型的原理及其核心组件(…

对比C++,Rust在内存安全上做的努力

简介 近年来&#xff0c;越来越多的组织表示&#xff0c;如果新项目在技术选型时需要使用系统级开发语言&#xff0c;那么不要选择使用C/C这种内存不安全的系统语言&#xff0c;推荐使用内存安全的Rust作为替代。 谷歌也声称&#xff0c;Android 的安全漏洞&#xff0c;从 20…