笑话大全内容爬取

news/2024/11/16 5:32:28/

完成对笑话大全http://xiaohua.zol.com.cn中所有笑话内容的爬取,并保存在mysql或mongodb中

#要求字段至少包括笑话分类,笑话来源,笑话标题,笑话内容,笑话url

import re,time,random
import requests
import pymysql
from lxml import etree
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36'}
#获取笑话分类url   '//div[@class="filter-links clearfix"]/a/@href'
new_url='http://xiaohua.zol.com.cn/new/'
response=requests.get(new_url,headers=headers).text
html2=etree.HTML(response)
# 获取所有笑话分类
fl_urls=html2.xpath('//div[@class="filter-links clearfix"]/a/@href')
xhfl=html2.xpath('//div[@class="filter-links clearfix"]/a/text()')
xhfl=xhfl[1:]
# print(len(xhfl),xhfl)
#获取笑话分类所有url
fl_urls_list=[]
for fl_url in fl_urls:fl_urls_list.append('http://xiaohua.zol.com.cn'+fl_url)
fenlei_urls=fl_urls_list[1:]
# print(len(fenlei_urls),fenlei_urls)#遍历每个笑话分类
for w in range(len(fenlei_urls)):print('正在打印:%s'%xhfl[w])try:# url = 'http://xiaohua.zol.com.cn/lengxiaohua/'r = requests.get(fenlei_urls[w],headers=headers).text# print(r)html = etree.HTML(r)# print(html)#获取笑话每页中的urlurls = html.xpath('//ul[@class="article-list"]/li/div[3]/a/@href')# '//ul[@class="article-list"]/li/span[2]/a/@href'url_list1=[]for url in urls:url_list1.append('http://xiaohua.zol.com.cn'+url)print(len(url_list1),url_list1)for n in range(len(url_list1)):try:print('正在打印第{}页'.format(n+1))url1 = '{}{}.html'.format(fenlei_urls[w],n+1)    #第一个中括号获取每个分类url,第二个中括号获取每页urlr = requests.get(url1, headers=headers).text# print(r)html = etree.HTML(r)# 获取笑话标题biaoti = html.xpath('//ul[@class="article-list"]/li/span/a/text()')print(len(biaoti),biaoti)# 获取每个笑话的来源laiyuan = html.xpath('//ul[@class="article-list"]/li/div[@class="article-source"]/span[2]//text() | //ul[@class="article-list"]/li/div[@class="article-source"]/a//text()')print(len(laiyuan),laiyuan)#获取每页url链接urls = html.xpath('//ul[@class="article-list"]/li/div[3]/a/@href')url_list1 = []for url in urls:url_list1.append('http://xiaohua.zol.com.cn' + url)print(len(url_list1), url_list1)#-----获取笑话大全每页每个链接中的笑话内容xhnr_list=[]# info_list=[]for j in range(len(url_list1)):r1 = requests.get(url_list1[j],headers=headers).texthtml1 = etree.HTML(r1)xhnr1 = html1.xpath('//div[@class = "article-text"]//text()')# print(xhnr1)xhnr2=[' '.join([i.strip() for i in xh.strip().split('\t')]) for xh in xhnr1]# print(xhnr2)xhnr = [i for i in xhnr2 if len(str(i))!=0]# print(xhnr)xhnr_list.append(xhnr)print(xhnr_list)#连接数据库(使用的函数:pymysql.connect)conn=pymysql.connect(host="localhost",user='root',password='123456',db='51job',charset='utf8')#连接完数据库后,使用db.cursor()获取数据库的操作游标cursor=conn.cursor()#按行插入insert_sql="insert into xhdq (xhfl,laiyuan,biaoti,xhnr,xhurl)values(%s,%s,%s,%s,%s)"for i in range(0,len(url_list1)):cursor.execute(insert_sql,(str(xhfl[w]),str(laiyuan[i]),str(biaoti[i]),str(xhnr_list[i]),str(url_list1[i])))conn.commit()cursor.close()conn.close()except Exception as e:print("请求出现错误,错误类型是%s" % e)except Exception as e:print("请求出现错误,错误类型是%s" % e)

http://www.ppmy.cn/news/177110.html

相关文章

axios结合vue在线获取一条笑话

1.导入引入vue和axios在线地址 <!-- 官方提供的axios在线地址 --><script src"https://unpkg.com/axios/dist/axios.min.js"></script><!-- 开发环境版本&#xff0c;包含了有帮助的命令行警告 --><script src"https://cdn.jsdelivr…

[幽默笑话]超漂亮的美女 任你点 [超级好玩](转载)

http://www8.tianya.cn/techforum/Content/14/639135.shtml 原贴在天涯社区&#xff0c;在那儿作应该更原汁原味&#xff0c;就不贴过来了。

挑战你智商的100个冷笑话(史上最全)

1.一只公鹿,它走着走着,越走越快,最后它变成了高速公路(鹿)!!!! 2.两只番茄过马路,一辆汽车飞驰而过,其中一只闪避不及被压扁,另一个番茄指着被压扁的番茄大笑道:挖哈哈哈,番茄酱… 3.大灰狼说:“我要吃了你!!!” 你们猜,怎么了?结果大灰狼就把小羊吃了. 4.石头和年糕…

那些可以讲给女朋友听得笑话_01

【生活】【笑话收藏】 “立志成为一名幽默有趣&#xff0c;又代码敲的溜的程序员~~” &#xff08;女朋友比较喜欢听笑话&#xff0c;然后决定把遇到不错的笑话收藏下&#xff0c;也欢迎大家留言推荐~&#xff09; 这是篇由于地方口音重闹出来的一则笑话。 出处&#xff1a…

微软surface屏幕测试软件,击败95%平板电脑 Surface Pro屏幕测试

01配置&#xff1a;Surface Pro一马当先 去年10月&#xff0c;微软推出了Surface Pro平板电脑&#xff0c;而今天我们要来聊的就是这款设备的屏幕表现。一般对于平板电脑的显示屏而言&#xff0c;以下几点很重要&#xff1a;1.触摸手感是否出色&#xff0c;整体操作是否流畅&am…

Surface系列平板电脑

2008年&#xff0c;微软单方面提议446亿美元加股票收购雅虎&#xff0c;这宗差点成为史上最大规模的交易案在持续近半年后宣告失败&#xff0c;原因很多&#xff0c;亦很复杂&#xff0c;但是在没能吃下雅虎之后&#xff0c;微软却意外的促使了雅虎与Google的合作告吹&#xff…

全面的平板--Surface(各版本对比)

随着移动互联网的到来&#xff0c;微软作为全球最大的软件公司也喊出了“Devices & Services”的口号&#xff0c;那他们有哪些device&#xff1f; 首当其冲的一定是最近曝光率非常高的Surface (读作"瑟face"&#xff0c;很多兄弟读作“苏菲”其实是错的...)&…

surface pro频繁黑屏问题

surface pro频繁黑屏问题解决方案 问题解决方案 问题 到手了一台surface pro 7平板电脑&#xff0c;被快捷方便可拆卸式的键盘惊艳到&#xff0c;感觉很方便&#xff0c;一切都很完美。直到将所需要的的各种软件安装差不多的时候&#xff0c;坑来了。。。surface突然黑屏&…