MMpa一pa

news/2024/10/22 5:18:05/

最新的某131网站精美套图爬取代码出炉,截至2020年4月13日有效,之后就不知道啦。
来,各位看客老爷们可以搞一下:

import requests
import json
import re
import time
import osdef find_img_src(html):    #这个函数其实没用到replace_pattern = r'<[meta|META].*?/>' img_url_pattern = r'.+?content="(\S+)"' img_url_list = []need_replace_list = re.findall(replace_pattern, html)for tag in need_replace_list:img_url_list.append(re.findall(img_url_pattern, tag))    return img_url_listdef find_set_span(html):paging_pattern = r'<div class="paging".*?</div>'span_pattern = r'<span.*?</span>'need_paging_list = re.findall(paging_pattern,html)# print(need_paging_list)for span_statement in need_paging_list:need_span_list = re.findall(span_pattern,span_statement)# print(need_span_list)final_pattern = r'>.*?<'span_number = re.findall(final_pattern,need_span_list[0])return (int(span_number[0][3:5]))headers = {"User-Agent": "Mozilla/5.0","referer":"https://m.mm131.net","Host":"m.mm131.net",
}   for i in range(5300,5350):     #这个套数ID数可以自己测试time.sleep(2)main_url = "https://m.mm131.net/xinggan/"+str(i)+".html"response = requests.get(main_url,headers = headers)if response.status_code == 200:try:# print(find_img_src(response.content.decode("gb2312"))[3],end="")     #返回url列表span_number = find_set_span(response.text)print(main_url, end="")print("  此套图页数:"+str(span_number))except:print("  网页解码异常")#创建文件夹pic_path = r'D:\******\WWW\photo\mm131\%d' % (i)isExists = os.path.exists(pic_path)if not isExists:os.makedirs(pic_path)print(pic_path + "   创建成功")#爬取图片for sequence in range(1, span_number + 1):if sequence == 1:referer_url = "https://m.mm131.net/xinggan/" + str(i) + ".html"else:referer_url = "https://m.mm131.net/xinggan/" + str(i) + "_" + str(sequence) + ".html"# print("referer: "+referer_url + "    ", end="")pic_headers = {"User-Agent": "Mozilla/5.0","referer": referer_url,"host": "img1.mmmw.net",}img_url = "https://img1.mmmw.net/pic/" + str(i) + "/" + str(sequence) + ".jpg"# print("img_url:  "+img_url,end="")#下载图片pic_response = requests.get(img_url,headers = pic_headers)time.sleep(0.5)if (pic_response.content!=None):open(r'D:\******\WWW\photo\mm131\%d\%d.jpg' % (i,sequence),'wb').write(pic_response.content)  # 将内容写入图片# print("   图片已写入")else:print(pic_path + "  目录已存在")else:print(main_url+"  访问错误")

http://www.ppmy.cn/news/345121.html

相关文章

PAM详解

最近接触PAM比较多&#xff0c;而中文版的文档过于老久&#xff0c;所以专门下载了英文版的指南&#xff0c;边学习边翻译。 由于水平有限&#xff0c;如有错误请及时指正。 1 简介 Linux-PAM(Pluggable Authentication Modules for Linux.基于Linux的插入式验证模块)是一组共享…

求夏普利值代码

本文提供了求夏普利值的代码&#xff0c;需要算法的地方只有分割子集。 import java.util.*;public class Shapley {/*** 得到包含这个元素的全部子集* param set* param target* return*/public static Set<Set<String>> findSubsets(List<String> set, St…

asp.net探头监控管理系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio

一、源码特点 asp.net探头监控管理系统 是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver2008&#xff0c;使用c#语言 开发 asp.net探头监控管理系统VS开发s…

智能存储柜的种类和特点分析

近年来随着网络技术的发展和人们对社会发展服务水平的需求不断提高&#xff0c;智能产品越来越普及&#xff0c;生活中也出现了越来越多的智能存储柜&#xff0c;应用于商场、超市、企业、工厂等场景&#xff0c;使用方便、保密性强、可靠性高。 智能存储柜种类非常多&#xff…

检索项目中冗余的图片

说在前面 平时在项目中我们会使用到一些图片&#xff0c;很多时候我们会直接将图片打包到项目中去&#xff0c;随着项目的更新迭代&#xff0c;我们可能会删除一些图片的引用&#xff0c;但没将图片源文件删除&#xff0c;这个时候没有被引用到的图片就会成为冗余的文件&#…

2023网络安全面试题汇总(附答案)

大家好&#xff0c;我是小V ,本人 17 年就读于一所普通的本科学校&#xff0c;20 年 6 月在三年经验的时候顺利通过校招实习面试进入大厂&#xff0c;现就职于某大厂安全联合实验室。 又到了毕业季&#xff0c;大四的漂亮学姐即将下架&#xff0c;大一的小学妹还在来的路上&…

C++ 中的运算符重载

您可以重定义或重载大部分 C 内置的运算符。这样&#xff0c;您就能使用自定义类型的运算符。 重载的运算符是带有特殊名称的函数&#xff0c;函数名是由关键字 operator 和其后要重载的运算符符号构成的。与其他函数一样&#xff0c;重载运算符有一个返回类型和一个参数列表。…