Python爬虫实战案例——王者荣耀皮肤抓取

devtools/2024/9/23 4:31:43/

大家好,我是你们的老朋友——南枫,今天我们一起来学习一下该如何抓取大家经常玩的游戏——王者荣耀里面的所有英雄的皮肤。

图片

老规矩,直接上代码:

导入我们需要使用到的,也是唯一用到的库:

图片

我们要抓取皮肤其实就是相当于抓图片,那么像这种大网站,大批量的图片它基本上是在一个文件里面,那么我们首要目的就是要找到这个文件所在地,打开浏览器调试面板,进行刷新。

图片

刷新之后在XHR中会出现很多文件,那么我们所有皮肤图片的地址是在哪呢?在哪个文件中呢?有些人可能会老老实实的一个个去找,那么我教大家一个邪术,当然并不适用所有的网站哈。

我们要抓取所有英雄的皮肤图片,英雄的英文单词叫啥?Hero,大批量是不是要用列表装起来?那么连起来不就是herolist?我们可以去找一下有没有herolist这么一个文件夹。

图片

可以发现的是,有这么一个文件夹,那么我们秉持着良好的学习探究精神点击进去查看一下,看看到底有没有对应的数据。

图片

有明显的数据集,继续下去!

图片

有些人看到这玩意就懵逼了,这啥啊?这不都乱码了嘛,不要慌,不要急,咱慢慢来,看看数据有没有规律。

图片

图片

图片

可以发现的是,他这个ename是在一个一个的增加。我们先保持怀疑态度,他到底与我们的项目有没有关系,继续去找下一个特征,先暂且搁置一边。

我们要抓取的是一张张大图,也就是高清无码的皮肤图片,比如这样:

图片

但我们放大仔细看发现,这个并不是我们的目标,因为它并不是最大,最高清的,那么到底在哪呢?继续使用邪术!!!高清无码图片,不就是大图片嘛?大的英文单词是啥?Big啊!!!那有没有这么个文件呢?

图片

这不是在图片这块有嘛?我们双击打开看看

图片

唉,非常明显的高清无码大图片了吧,但仔细想想,我现在只是抓到了一张而已,但王者荣耀官网可是有非常多的,那我该如何进行批量抓取呢?

你们还记得我们开头分析的那个文件嘛?就是逐渐+1的ename?这个数字是不是有什么关系呢?我们一起来看下这个目标图片的网址:

图片

这个是517,再来看看另外的。李信这个英雄是:

图片

数字变成了507!我们是不是可以大胆的猜测一下,这个数字就是我们找到的ename?那我们想要拿到每一张高清无码图片的话,是不是只要改变这个数字就行了?邓小平爷爷说过:实践是检验真理的唯一标准!我们进行实践不就知道了?

图片

改成105是廉颇!

图片

改成106是小乔!!!这里就基本确定了,如果你还不敢确定的话,那你可以去进行多次尝试得到证实。言归正传,我们的目标是要下载所有的皮肤图片,那么是不是拿到这个链接地址,然后给他改变数字就行了?直接大胆尝试!

获取到这个文件的所有数据:

图片

获取之后他是在列表里面,那么我们就可以通过循环拿到列表里面的数据:

图片

除了拿到ename之外,我们还拿到了cname,cname是什么?仔细观察的小伙伴应该已经发现了,cname就是每个英雄的名字,我们图片保存下来是不是还得要名字?那么cname已经给我们写好了,我们就不用自己操心了,直接提取即可。

提取下来ename数字之后,直接进行拼接:

图片

这样就拿到了我们每一张图片的地址,直接对他们进行二次请求,为什么呢?就是因为图片是二进制数据,而前面的是json数据,那么现在获取的是图片,就要进行二次请求,进行.content。一切准备就绪,进行保存。

图片

看看效果:

图片

可以看到的是,不仅保存下来了,并且每一个英雄的名字也没有出现差错!你学会没有?大家看完之后一定要去进行操作哦。


http://www.ppmy.cn/devtools/57216.html

相关文章

AI是在帮助开发者还是取代他们?

文章目录 🌍AI是在帮助开发者还是取代他们?🌕AI的崛起与应用🌐AI的背景🌐AI在开发中的具体应用 🌕AI对开发者的帮助🌐提高生产力🌐降低重复性工作🌐提升代码质量&#x1…

【每日一练】python列表

1、输入一个整数列表,将列表中的元素按照逆序输出。 list1[5,4,5,6] list1.reverse() print(list1)[6, 5, 4, 5]2、输入一个字符串列表,输出其中长度大于等于5的字符串,并且将它们转换为大写形式。 list1[hello,lol,ak47,aliang] for i in …

昇思25天学习打卡营第13天 | SSD目标检测

模型简介 SSD,全称Single Shot MultiBox Detector,是Wei Liu在ECCV 2016上提出的一种目标检测算法。使用Nvidia Titan X在VOC 2007测试集上,SSD对于输入尺寸300x300的网络,达到74.3%mAP(mean Average Precision)以及59FPS&#x…

Node.js 入门

目录 定义 什么是前端工程化? Node.js 为何能执行 JS? Node.js 安装 使用 Node.js fs 模块 - 读写文件 path 模块 - 路径处理 案例 - 压缩前端 html URL 中的端口号 常见的服务程序 http 模块-创建 Web 服务 浏览时钟(案例&#x…

001 进程和线程

文章目录 进程和线程进程线程 进程和线程 进程–>正在运行的程序,可能对应一个或多个进程, 拥有一些资源:内存、CPU 进程之间可以通信:管道、信号量、共享存储、socket 消息队列等 线程–>执行指令的集合,一个进…

esp12实现的网络时钟校准

网络时间的获取是通过向第三方服务器发送GET请求获取并解析出来的。 在本篇博客中,网络时间的获取是一种自动的行为,当系统成功连接WiFi获取到网络天气后,系统将自动获取并解析得到时间和日期,为了减少误差每两分钟左右进行一次校…

盘点几款国产AI高效神器!打工人赶紧码住

在这个AI技术飞速发展的时代,国产AI工具正成为提升工作效率的得力助手。作为AI工具测评博主,米兔有幸体验了多款国产AI工具,今天要向大家介绍几款超级好用的AI工具。这些工具不仅功能强大,而且操作简便,是职场人士不可…

51单片机第18步_将TIM0用作13位定时器

本章重点学习将TIM0用作13位定时器。 1、定时器0工作在模式0框图 2、定时器0工作在模式0举例 1、Keil C51中有一些关键字,需要牢记: interrupt 0:指定当前函数为外部中断0; interrupt 1:指定当前函数为定时器0中断…