requests运用----爬取大主宰小说

news/2025/2/3 17:55:16/

这是小说网址http://www.biququ.info/html/3486/43571.html
检查元素–抓取文本内容在Elements的具体位置
在这里插入图片描述
可以看到都是在

== $0下,那就意味着我们只要抓取该标签下所有的p标签中的文本就行
在这里插入图片描述
etree.HTML():构造了一个XPath解析对象并对HTML文本进行自动修正。
etree.tostring():输出修正后的结果,类型是bytes
我们从网页请求到的数据并不一定能直接使用xpath定位,所以需要使用etree.HTML()转换成能用xpath的格式
同样我们可以抓取到屏幕上下一站所在的标签,可以看到其中有下一章的地址,我们就可以将它爬取作为下一次的url地址
在这里插入图片描述

import requests
import time
from lxml import etreeclass DazhuzaiSpider:def __init__(self):self.header={"ser-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"}self.tmep_url="http://www.biququ.info/html/3486/43571.html"def parse(self,url):response = requests.get(url,headers=self.header)content = response.content.decode()return contentdef get_content(self,html_str):html = etree.HTML(html_str)content = html.xpath("//div[@id='content']/p")next_url = html.xpath("//div[@class='bottem1']//a[@id='pager_next']/@href")next_url ="http://www.biququ.info"+"".join(next_url)#print(next_url)#print(content)content_list = []for i in content:p_content = i.xpath("./text()")# p_content = [i.replace("['","") for i in p_content]# p_content = [i.replace("']", "") for i in p_content]content_list.append(p_content)#print(content_list)return content_list,next_urldef save_content(self,content):with open("大主宰.txt","a") as f:for i in content:#print(i)#print(type(i))#print("".join(i))str = "".join(i)# print(str)# str =str+'\n'str = str.strip("/n")f.write(str)f.write("\n")f.close()def run(self):start = time.clock()print(start)next_url = self.tmep_urlwhile True:#获取start_url#发送请求,获得数据html_str = self.parse(next_url)#print(html_str)#提取数据content,next_url= self.get_content(html_str)#print(content)if next_url=="http://www.biququ.info/html/3486/":break#获得下一个url地址self.save_content(content)#发送请求end = time.clock()print(end-start)if __name__ == "__main__":dzz = DazhuzaiSpider()dzz.run()

http://www.ppmy.cn/news/683003.html

相关文章

“主宰世界”的10种算法短评

声明:引用请注明出处http://blog.csdn.net/lg1259156776/ 下面是在网络上引起热议的“主宰世界”的10种算法,本文的目的是在于引入,以便后续的拓展算法学习。 归并排序(MERGE SORT),快速排序(QUICK SORT)和堆积排序(HEAP SORT)傅立叶变换和快速傅立叶变换代克思托演算法 (D…

主宰这个世界的 10 大算法

关注“逆锋起笔”领取视频教程 ☞ 程序员进阶必备资源免费送「各种技术!」 ☜ 作者:claudio,煎蛋 00 前言 Reddit有篇帖子介绍了算法对我们现在生活的重要性,以及哪些算法对现代文明所做贡献最大。这个表单并不完整,很…

3D-game-unity作业四(大主宰片段)

3D-game-unity作业四(大主宰片段) 下载 Fantasy Skybox FREE, 构建自己的游戏场景 点击菜单中的windows->assert store,打开商店窗口,搜素想要的资源,下载添加到仓库。 希望哪天资源不免费了&#xf…

世界的下一个主宰——人工智能

一、人工智能的诞生及发展 艾伦图灵是英国数学家、逻辑学家、密码学家,对计算机科学的发展具有重大影响。他于1936 年提出了抽象计算“图灵机”,使算法的概念得以形式化,至今仍在许多理论和实践研究中得到应用。世人公认,图灵的科…

招聘主宰一切

招聘主宰一切 发布时间:2012-07-12 文章出自:译言 原文链接: 点击查看 我们都同意招聘人员会干一些很令人厌烦的事情。不用太多想象就可以知道,大部分的招聘人员会潜伏在LinkedIn上,不停的给工程师发骚扰信息&#xff…

主宰力量系列计划介绍

• 主宰力量系列计划:2年精读彻底掌握40本国外计算机类类传世之作(不计内容重复的) • 什么是主宰力量系列计划?○ 我将在2年修完清华6门CS类硕士学位的过程中 顺便 精读彻底掌握40本国外计算机类类传世之作○ 内容大致重复的经典…

手机显示主宰进攻服务器,xy盛世遮天真龙主宰

xy盛世遮天真龙主宰是一款超级火爆的热血经典传奇手游,游戏拥有超高人气,经典玩法,炫酷特效,在手机上操作也非常的简单,游戏中占用的内存也超级小,还有丰富的任务等你来完成,拥有5倍攻速&#x…

主宰互联网的超强10大算法!

Reddit有篇帖子介绍了算法对我们现在生活的重要性,以及哪些算法对现代文明所做贡献最大。这个表单并不完整,很多与我们密切相关的算法都没有提到,如机器学习和矩阵乘法,欢迎你继续补充。 如果对算法有所了解,读这篇文…