【Python实战】Python采集王者最低战力信息

news/2024/12/2 17:31:50/

前言

王者新赛季马上就要开始了,大家都开始冲榜了,准备拿一个小省标,那么,本文,就来练习获取各地最低战力的爬虫采集实战。

环境使用

  • python 3.9
  • pycharm

模块使用

  • requests

模块介绍

  • requests

        requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。

  • parsel

        parsel是一个python的第三方库,相当于css选择器+xpath+re。

parsel由scrapy团队开发,是将scrapy中的parsel独立抽取出来的,可以轻松解析html,xml内容,获取需要的数据。

相比于BeautifulSoup,xpath,parsel效率更高,使用更简单。

  • re

        re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。

  • os

        os 就是 “operating system” 的缩写,顾名思义,os模块提供的就是各种 Python 程序与操作系统进行交互的接口。通过使用 os 模块,一方面可以方便地与操作系统进行交互,另一方面也可以极大增强代码的可移植性。

  • csv

        它是一种文件格式,一般也被叫做逗号分隔值文件,可以使用 Excel 软件或者文本文档打开 。其中数据字段用半角逗号间隔(也可以使用其它字符),使用 Excel 打开时,逗号会被转换为分隔符。csv 文件是以纯文本形式存储了表格数据,并且在兼容各个操作系统。

模块安装问题:

  • 如果安装python第三方模块:

win + R 输入 cmd 点击确定, 输入安装命令 pip install 模块名 (pip install requests) 回车

在pycharm中点击Terminal(终端) 输入安装命令

  • 安装失败原因:
  • 失败一: pip 不是内部命令

                解决方法: 设置环境变量

  • 失败二: 出现大量报红 (read time out)

                解决方法: 因为是网络链接超时, 需要切换镜像源

   

    清华:https://pypi.tuna.tsinghua.edu.cn/simple阿里云:https://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学:https://pypi.hustunique.com/山东理工大学:https://pypi.sdutlinux.org/豆瓣:https://pypi.douban.com/simple/例如:pip3 install -i https://pypi.doubanio.com/simple/ 模块名
  • 失败三: cmd里面显示已经安装过了, 或者安装成功了, 但是在pycharm里面还是无法导入

                解决方法: 可能安装了多个python版本 (anaconda 或者 python 安装一个即可) 卸载一个就好,或者你pycharm里面python解释器没有设置好。

代码实现

王者新赛季马上就要开始了,大家都开始冲榜了,准备拿一个小省标,那么,本文,就来练习获取各地最低战力的爬虫采集实战。

确定网址

确定好我们的目标网址之后,我们要找到我们需要的数据源,通过开发者工具分析,我们不难发现其数据地址。

请求URL:

https://www.sapi.run/hero/select.php

请求方式:

  • GET
  • 参数:

参数名必选类型说明
herostring英雄名
typestring选aqq、awx、iqq、iwx

请求示例

https://www.sapi.run/hero/select.php?hero=孙悟空&type=aqq

返回示例

{"code": 200,"data": {"uid": "167","name": "孙悟空","alias": "齐天大圣-孙悟空","platform": "安卓-扣扣区","photo": "https://game.gtimg.cn/images/yxzj/img201606/heroimg/167/167.jpg","area": "武强县","areaPower": "3693","city": "潮州市","cityPower": "5501","province": "天津市","provincePower": "7274","guobiao": "11404","stamp": "1654640093","updatetime": "2022/06/08 06:14:53","clientIP": "119.0.0.126"},"msg": " "
}

下面,我们开始写代码。

获取数据

第一步,发送请求,获得数据。

import requests
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}hero_url = 'https://pvp.qq.com/web201605/herolist.shtml'
response = requests.get(url=hero_url, headers=headers)

这段代码中,我们使用 Python 的 requests 模块发送了一个 GET 请求,请求的 URL 为 https://pvp.qq.com/web201605/herolist.shtml,并且使用了 headers 参数来设置请求头信息。请求头信息包括了 user-agent 字段,用于指定浏览器的 User-Agent 信息。

请求返回的结果是一个 Response 对象,我们可以使用 response.text 属性来获取请求的响应内容。在这个例子中,我们使用了 response.json() 方法来将响应内容转换为 JSON 格式,并将其存储在 response.text 属性中。

response.encoding='gbk'
heros = re.findall('alt=".*?">(.*?)</a>',response.text)[0:93]

在这个例子中,我们使用 findall() 函数来查找 JSONP 回调函数的参数,并将其存储在 response.text 变量中。然后,我们使用 [0:93] 来获取第一个匹配的子字符串,并将其存储在 heros 变量中。

解析数据

我们发现,我们得到了这样英雄名字的数据,下面,我们就可以构建url,获取战力信息。

for hero in heros:print(hero)url = f'https://www.sapi.run/hero/select.php?hero={hero}&type=qq'res = requests.get(url)data = res.json()['data']name = data['name']area = data['area']areaPower= data['areaPower']city = data['city']cityPower = data['cityPower']province= data['province']provincePower = data['provincePower']platform= data['platform']updatetime = data['updatetime']

这段代码中,我们使用 Python 的 requests 模块发送了一个 GET 请求,请求的 URL 为 https://www.sapi.run/hero/select.php?hero={hero}&type=qq,并且使用了 json() 方法将响应内容转换为 JSON 格式,并将其存储在 res.json() 变量中。

请求返回的结果是一个 Response 对象,我们可以使用 response.json() 方法将响应内容转换为 JSON 格式,并将其存储在 res.json() 变量中。

在这个例子中,我们使用了 res.json() 变量来获取响应内容,并将其存储在 data 变量中。然后,我们使用 name 变量获取了英雄名称,使用 area 变量获取了区域名字,使用 areaPower 变量获取了区域战力,使用 city 变量获取了市,使用 cityPower 变量获取了市战力,使用 province 变量获取了省份,使用 provincePower 变量获取了省份战力,使用 platform 变量获取了平台,使用 updatetime 变量获取了更新时间。

保存数据

dit = {'英雄名称':name,'服务区':platform,'更新时间': updatetime,'铜牌区域':area,'铜牌分数': areaPower,'银牌区域':city,'银牌分数': cityPower,'金牌区域':province,'金牌分数':provincePower ,
}

这段代码是一个 Python 代码片段,它定义了一个字典,其中包含了一些英雄的信息,包括英雄名称、服务区、更新时间、铜牌区域、铜牌分数、银牌区域、银牌分数、金牌区域、金牌分数等。

下面就是数据的写入了。其实,把字典数值写入到csv文件里面,特别简单,只需呀四行代码就可以实现。

f = open('最低战力.csv', mode='W', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['英雄名称', '服务区', '更新时间', '铜牌区域', '铜牌分数','银牌区域', '银牌分数', '金牌区域','金牌分数'])
csv_writer.writeheader()

写入字典数值。

csv_writer.writerow(dit)
这时候,我们就会在文件夹里面找到最低战力的csv文件,我们打开看看效果。

 

附全部源码

import requests
import re
import csv
f = open('最低战力.csv', mode='w', encoding='utf-8_sig', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['英雄名称', '服务区', '更新时间', '铜牌区域', '铜牌分数','银牌区域', '银牌分数', '金牌区域','金牌分数'])
csv_writer.writeheader()
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36'
}hero_url = 'https://pvp.qq.com/web201605/herolist.shtml'
response = requests.get(url=hero_url, headers=headers)response.encoding='gbk'
heros = re.findall('alt=".*?">(.*?)</a>',response.text)[0:93]
print(heros)
# aqq、awx、iqq、iwx
for hero in heros:print(hero)url = f'https://www.sapi.run/hero/select.php?hero={hero}&type=qq'res = requests.get(url)data = res.json()['data']name = data['name']area = data['area']areaPower= data['areaPower']city = data['city']cityPower = data['cityPower']province= data['province']provincePower = data['provincePower']platform= data['platform']updatetime = data['updatetime']dit = {'英雄名称':name,'服务区':platform,'更新时间': updatetime,'铜牌区域':area,'铜牌分数': areaPower,'银牌区域':city,'银牌分数': cityPower,'金牌区域':province,'金牌分数':provincePower ,}print(dit)csv_writer.writerow(dit)

6adf31c8c5dd4e6a83314f4805b30bc1.jpg


http://www.ppmy.cn/news/347611.html

相关文章

什么是API测试?开发必知的8种API自动化测试类型

API测试 API自动化测试在产品质量控制和CI/CD流程检测中扮演着非常重要的角色。与GUI测试不同&#xff0c;API测试可以更灵活应地适应发布周期短和频繁变更的需求或产品&#xff0c;而且也不会破坏测试输出结果。 什么是API测试&#xff1f; API是应用程序编程接口的首字母缩…

mybatis 简单明了

首先定义MapperScan MapperScan会导入MapperScanRegistrar。这个类很重要。这个类注意是把path下的bean扫描的定义definition扫描进来。 这个register方法是什么时候执行的&#xff1f; 由于它是imports进来的&#xff0c;项目启动后configurationclass parse的时候会把import…

Vue过滤器基本使用

1、app.vue 使用methods实现&#xff1a; <template><div>{{ uppercase(message) }}<h3><h3 :x"mySlice(msg)">Title</h3></h3></div> </template><script> export default {data() {return {message: "…

ubuntu 18.04.5.LTS不能安装

ubuntu 18.04.5 LTS 安装 pip3: sudo apt install python3-pip 不成功 尝试&#xff1a; sudo wget https://bootstrap.pypa.io/get-pip.py sudo python3 get-pip.py

Ubuntu 22.04.1 LTS安装配置idea

下载 ultimate 是功能最多的版本 community 是免费版本 https://www.jetbrains.com/idea/download/#sectionlinux解压&#xff1a;下载文件路径下 sudo tar -zxvf ideaIU-2022.3.2.tar.gz /usr/local下创建idea文件夹 sudo mkdir idea移动idea工具到/usr/local/idea sudo …

Ubuntu18.04安装QT5

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、QT5是什么&#xff1f;二、安装包安装1.下载安装包2.安装QT53.运行4.其他方式 总结 前言 最近在学习QT5&#xff0c;在Windows上的安装自然不必多说&#…

Ubuntu 18.04安装Qt5.13

1. 安装Qt 下载地址&#xff1a;http://download.qt.io/archive/qt/5.13/5.13.0/ 最新版本尝鲜。 64bit系统选择qt-opensource-linux-x64-5.13.0.run 2 修改文件权限chmod 755 qt-opensource-linux-x64-5.13.0.run 3 执行安装./qt-opensource-linux-x64-5.13.0.run,剩下的就…

Jetson Tx1升级到ubuntu 20.04.5 LTS

SunnyG按&#xff1a;想用ROS2系统做智能小车&#xff0c;但是查了资料说ubuntu 18支持到Ros1 melodic&#xff0c;所以想试试将Jetson Tx1升级到ubuntu 20.04&#xff0c;但是不知是否会出现兼容问题&#xff0c;观察一下效果&#xff0c;这里记录一下步骤&#xff0c;方便查阅…