Steam游戏的爬取与分析

news/2024/9/23 4:31:40/

Steam游戏的爬取与分析

本文爬取了steam冒险类游戏中热销产品中的7500个游戏进行统计分析

1、首先要先知道网页链接的组成形式:

在这里插入图片描述
2、其次查看我们想要爬取的信息区域:
在这里插入图片描述
3、开始分析:
(1)、url的分析:
我们发现冒险类游戏的url:https://store.steampowered.com/tags/zh-cn/冒险当点击+页数的时候:
在这里插入图片描述在这里插入图片描述
可以发现url尾部增加了: #p=1&tab=TopSellers
url变成了:https://store.steampowered.com/tags/zh-cn/冒险#p=1&tab=TopSellers
因此可以知道P代表页码,tab代表冒险类游戏中的游戏发布类型,此时url的组成已明了
(2)、爬取游戏的网址、名字、编号:
1、首先先分析第一个游戏,我们发现游戏的链接信息中包含其名字、编号信息,所以我们可以通过获取其链接来提取其编号和名字信息。
在这里插入图片描述
其次爬取翻页信息
在这里插入图片描述
但是从返回的网页信息中并没有发现其翻页数据
在这里插入图片描述
2、通过经验判断此处应该为js实现,但是js代码区经过了隐藏,所以不好下手,但是通过观察我们发现,通过搜索class=” paged_items_paging_controls”此处有五个结果,我们分析其中一个,发现他的命名方式和游戏的发布类型有相似之处,且告诉了每一页有15个数据,总共有936个数据,所以我们返回观察。
刚好页数就为936/15+1=63
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3、开始爬取数据,在爬取数据的时候发现每次爬取的信息都永远是第一页的内容:说明此处steam平台动了小心思,我们接着通过抓包工具来进行分析。

当我们点击第二页的时候发现请求链接是,顺便点击第三页发现:
https://store.steampowered.com/contenthub/querypaginated/tags/NewReleases/render/?query=&start=15&count=15&cc=CN&l=schinese&v=4&tag=%E5%86%92%E9%99%A9
https://store.steampowered.com/contenthub/querypaginated/tags/NewReleases/render/?query=&start=30&count=15&cc=CN&l=schinese&v=4&tag=%E5%86%92%E9%99%A9

每次更改页数变化的是start的值,刚好是15的倍数,通过之前的分析,很容易知道这是翻页。 在这里插入图片描述
通过访问该链接,返回了一个字符串数据:
在这里插入图片描述
其中刚好有我们需要的链接消息,所以我们便可用正则匹配将我们需要的信息给提取出来。因此爬取模块代码:

import requests
import urllib
from selenium import webdriver
from bs4 import BeautifulSoup
from lxml import etree
import re
import random
import pandas as pd
from tqdm import tqdmheaders = [{'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'},{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'},{'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'},{'User-Agent': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0'},{'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0'}
]class steam_init(object):def __init__(self,name,announce):self.url = "https://store.steampowered.com/tags/zh-cn/" + nameself.headers = random.choice(headers)self.announce = announce#self.driver = webdriver.Chrome(executable_path='C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe')def get_page(self):response = requests.get(self.url, self.headers)str = '<span id="' +self.announce + "_total" +'">(.*?)</span>'com = re.compile(str)result = re.findall(com, response.text)[0]result = re.sub(r',','',result)max_page = int( int( result ) / 15 ) + 1page_num = input("输入想要爬取的页数,当前商品列最大的页数为{}:  ".format(max_page))return int(page_num)class steam_spider_request():def __init__(self,name,announce,page):self.headers = random.choice(headers)self.name = nameself.announce = announceself.page = pagedef get_spider(self):srclist = []IDlist = []namelist = []for page in tqdm(range(self.page)):url = 'https://store.steampowered.com/contenthub/querypaginated/tags/{0}/render/?query=&start={1}&count=15&cc=CN&l=schinese&v=4&tag={2}' \.format(self.announce, page * 15, self.name)html = requests.get(url, self.headers).textcom = re.compile('https://store.steampowered.com/app/(.*?)/(.*?)/')com1 = re.compile('href="(.*?)"')result = re.sub(r'\\', '', html)result = re.findall(com1, result)for dat in result:srclist.append(str(dat))IDlist.append(re.findall(com, str(dat))[0][0])namelist.append(re.findall(com, str(dat))[0][1])#print('已完成{}页的内容'.format(page))return srclist,IDlist,namelistdef save(self):srclist, IDlist, namelist = self.get_spider()df = pd.DataFrame(list(zip(srclist, IDlist, namelist)),columns=['链接', 'ID', '游戏名'])return dfif __name__ == '__main__':#rep_thread = ['rep1','rep2','rep3','rep4']  #处理线程num = ['NewReleases','TopSellers','ConcurrentUsers','TopRated','ComingSoon']game_type = input('输入想要爬取的游戏类型,例如:动作,射击……  ')game_type = urllib.parse.quote(game_type)game_anno = int(input('输入查询的货列编号:新品与热门商品1、热销商品2、热门游戏3、最受好评4、即将发行5  '))#获取最大页数,返回想要爬取的页数0steam = steam_init(game_type, num[game_anno-1])page = steam.get_page()#爬取规定页数的游戏基本信息path1 = 'first.xlsx'spider = steam_spider_request(game_type, num[game_anno-1],page)#spider.get_spider(page)save = spider.save()save.to_excel(path1)

爬取信息:
在这里插入图片描述
(3)、通过访问游戏链接,获取游戏中的数据:
通过first.xlsx中爬取的链接信息,通过pandas中的apply方法来进行迭代访问。
首先先分析网页需要爬取的信息:
在这里插入图片描述
在这里插入图片描述
通过查看网页源码可以发现需要的信息都存在所以,此处就不需要分析太多直接通过xpath方法直接获取,并将获取的游戏信息保存到second.xlsx中。例如我们爬取好评率,通过xpath的方法:

所以第二部分代码:

def get_type(html):str = ' 'final_cost = html.xpath('//div[@class="glance_tags popular_tags"]/a')for i in final_cost[0:6]:   #输出前6个标签str = str + i.text + ' 'return strdef clear(str):com = re.sub(r'\t|\r\n','',str)return comdef getdetail(x):#原价   现价    近评   全评    好评率    评价人数    游戏描述   游戏类型   发布时间    开发商original_cost ,final_cost,now_evaluate, all_evaluate, rate, people, des, type, time, deve= ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ',' ',' 'header = random.choice(headers)global counttry:html = requests.get(x['链接'], headers = header, timeout=10).textxml = etree.HTML(html)except:print('服务器1没响应,正在重新请求')try:html = requests.get(x['链接'], headers = header, timeout=10).textxml = etree.HTML(html)except:print('服务器2没响应,正在重新请求')try:html = requests.get(x['链接'], headers=header, timeout=10).textxml = etree.HTML(html)except:print('服务器没响应,直接进入下一个')#html = requests.get(x['链接'], headers=header, timeout=10).texttry:try:original_cost = xml.xpath('//div[@class="discount_prices"]/div[1]')[0].textfinal_cost = xml.xpath('//div[@class="discount_prices"]/div[2]')[0].textexcept:original_cost = xml.xpath('//div[@class="game_purchase_price price"]')[0].textoriginal_cost = clear(original_cost)final_cost = xml.xpath('//div[@class="game_purchase_price price"]')[0].textfinal_cost = clear(final_cost)try:now_evaluate = xml.xpath('//div[@class="summary column"]/span[1]')[0].textall_evaluate = xml.xpath('//div[@class="summary column"]/span[1]')[1].textrate = xml.xpath('//div[@class="user_reviews_summary_row"]/@data-tooltip-html')[0][:4]people = clear(xml.xpath('//div[@class="summary column"]/span[2]')[0].text)[1:-1]except:now_evaluate = "None"all_evaluate = xml.xpath('//div[@class="summary column"]/span[1]')[0].textrate = xml.xpath('//div[@class="user_reviews_summary_row"]/@data-tooltip-html')[0][:4]people = clear(xml.xpath('//div[@class="summary column"]/span[2]')[0].text)[1:-1]des = clear(xml.xpath('//div[@class="game_description_snippet"]')[0].text)type = get_type(xml)time = xml.xpath('//div[@class="date"]')[0].textdeve = xml.xpath('//div[@class="dev_row"]/div[2]/a[1]')[0].textexcept:print('第{}个游戏未完成检索'.format(count))count += 1return original_cost ,final_cost,now_evaluate, all_evaluate, rate, people, des, type, time, devedef info(path):df = pd.read_excel('./first.xlsx')df['详细']     = df.apply(lambda x: getdetail(x), axis=1)df['原价']     = df.apply(lambda x:x['详细'][0], axis=1)df['现价']     = df.apply(lambda x:x['详细'][1], axis=1)df['最近评价'] = df.apply(lambda x:x['详细'][2], axis=1)df['全部评价'] = df.apply(lambda x:x['详细'][3], axis=1)df['好评率']   = df.apply(lambda x:x['详细'][4], axis=1)df['评价人数'] = df.apply(lambda x:x['详细'][5], axis=1)df['游戏描述'] = df.apply(lambda x:x['详细'][6], axis=1)df['类型']     = df.apply(lambda x:x['详细'][7], axis=1)df['发行时间'] = df.apply(lambda x:x['详细'][8], axis=1)df['开发商']   = df.apply(lambda x:x['详细'][9], axis=1)df = df.drop('Unnamed: 0', axis=1)   #删掉没用的数据df.to_excel(path)df.info()print('---检索完成---')if __name__ == '__main__':# 根据基本信息,爬取相应游戏的特有信息path2 = 'second.xlsx'info(path2)

结果可以看到(注:虽然每个每个游戏的爬取方法都一致,但是存在有些游戏访问不到,可能由于是外网的原因,所以一些游戏访问的不到):
在这里插入图片描述
(4)、数据处理,由于使用的数据需要将其转化为一定的格式
价格的处理:由于有些游戏有打折,所以已现价为价格基础:
注:在实际爬取的过程中,大多数游戏有价格,但是有少部分游戏是 ‘免费游玩’,‘Free’甚至有一些是‘demo’,所以将这少部分同一转化为0元。通过爬取到的游戏价格我们发现在价格数字面前都存在‘¥’,所以我们通过鉴别第一个符号是否为‘¥’便可以完成价格的处理,最后用to_numeric()方法将其转化为int型

def deal_price(x):price = ' 'if(x['现价'][:1] != '¥' or x['现价'] == ' '):price = '0'else:price = re.sub(r'¥| |,','',x['现价'])return price
df['price'] = df.apply(lambda x:deal_price(x), axis=1)
df['price'] = pd.to_numeric(df['price'])

好评率的处理:
注:每个游戏都存在评价,但是有些游戏的人数评价数量较少,所以被steam特殊处理为‘Need more user reviews to generate a scor’,其余的只需将最后的‘%’处理便可。

def deal_rate(x):rate = ' 'if(x['好评率'] == 'Need' or x['好评率'] == ' '):rate = '0'else:rate = re.sub(r'%| |o','',x['好评率'])return rate
df['好评率'] = df.apply(lambda x:deal_rate(x), axis=1)
df['好评率'] = pd.to_numeric(df['好评率'])

评价人数的处理:
注:此处和好评率的注意事项一致。

def deal_num(x):num = ' 'if x['评价人数'] == ' Need more user reviews to generate a scor' or x['评价人数'] == ' ':num = '0'else:num = re.sub(',','',x['评价人数'])return num
df['评价人数'] = df.apply(lambda x:deal_num(x), axis=1)
df['评价人数'] = pd.to_numeric(df['评价人数'])

游戏发布日期的处理:
注:目标需把爬取的日期需要将其转化为datatime格式,其次爬取的时间有极少部分只有年加月,所以同一将其日等于爬取月的一号。

def deal_year(x):mon = {'Jan':'1','Feb':'2','Mar':'3','Apr':'4','May':'5','Jun':'6','Jul':'7','Aug':'8','Sep':'9','Oct':'10','Nov':'11','Dec':'12'}year, month, day= ' ',' ',' 'if x['发行时间'] == ' ':year = '2000/1/1'else:year = x['发行时间'][-4:]if(x['发行时间'][0] >= '0'and x['发行时间'][0] <= '9' ):day = re.sub(' ', '', x['发行时间'][:2])month = mon[re.sub(r' |,', '', x['发行时间'][2:6])]else:day = '1'month = mon[x['发行时间'][:3]]year = year + '/' + month + '/' + dayreturn year
df['year'] = df.apply(lambda x:deal_year(x), axis=1)

接着打开保存的文件second_deal.xlsx先将日期的那一列全选(利用Ctrl+Shift+鼠标左键双击)
在这里插入图片描述
接着 点击数据->分列->下一步->下一步->日期->完成
在这里插入图片描述
最后通过info查看转换结果:
在这里插入图片描述
(5)、分析模块:
通过matplotlib库来进行分析:
分析:逐年游戏的好评度情况:

def show_first(df):   #点图plt.rcParams['font.sans-serif'] = ['SimHei']    #设置字体为SimHei显示中文plt.rcParams['axes.unicode_minus'] = False      #设置正常显示字符Y = df['price'] # 每一个点的Y值X = df['year']# 每一个点的X值plt.style.use('seaborn')#画布风格plt.rcParams['font.sans-serif']=['Microsoft YaHei']#字体plt.figure(figsize=(20, 5))#大小#这里散点大小是热销排行的倒数,也就是说越热销的游戏,圆点也就越大#颜色取决于好评率高低,colorbar也就是cmap选择'RdYlBu'风格plt.scatter(X,Y, s=15000/(df.index+200), c=df['好评率'], alpha=.9,cmap=plt.get_cmap('RdYlBu'))plt.colorbar().set_label('好评率',fontsize=20)'''#局部放大datenow = datetime.datetime(2021, 1, 1)dstart = datetime.datetime(2010, 1, 1)plt.xlim(dstart, datenow)plt.ylim(0, 500)'''plt.xlabel('年份',fontsize=20)plt.ylabel('价格',fontsize=20)plt.title('逐年该类型游戏的好评度情况')plt.show()

分析:每年的游戏的平均价格和好评度的曲线图:

def show_second(df):  #曲线图    --统计的是每一年整年的游戏plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置字体为SimHei显示中文plt.rcParams['axes.unicode_minus'] = False  # 设置正常显示字符df_price = df.groupby('year')['price'].mean().to_frame().reset_index().sort_values(by='year')  # 按年分组,求平均价格df_rate = df.groupby('year')['好评率'].mean().to_frame().reset_index().sort_values(by='year')  # 按年分组,求平均好评率plt.figure(figsize=(20, 5))plt.plot(df_rate['year'], df_rate['好评率'], c='g', label='平均好评率%')plt.plot(df_price['year'], df_price['price'], c='c', label='平均价格')plt.xlabel('年份', fontsize=20)plt.legend()plt.title('年份与价格、好评率')datenow = datetime.datetime(2021, 1, 1)dstart = datetime.datetime(1980, 1, 1)plt.xlim(dstart, datenow)plt.ylim(0, 100)plt.show()

4、实验结果
本实验爬取了steam冒险游戏中的7500个游戏:
实验操作流程:
1、先运行steam.py获取first.xlsx第一张表:
在这里插入图片描述
2、运行specific_infomation.py获取second.xlsx第二张表:
在这里插入图片描述
3、运行deal_data.py获取second_deal.xlsx第三张表:
4、运行deal_show_info.py得到分析的游戏结果:
结果展示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
局部放大后:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以发现随着年份的增加游戏的整体数量开始上升、其次整体质量十分优良,价格普遍都在100元以下,这也说明人人都可以消费得起。


http://www.ppmy.cn/news/673827.html

相关文章

Ubuntu系统下载缓慢,以及更新源卡住不动(终极解决方案)

Ubuntu系统软件和更新卡住不动&#xff08;终极解决方案&#xff09; 切记&#xff1a;不能同时打开多个虚拟机。同时打开多个虚拟机好像只有1个能上网&#xff0c;会导致没法联网&#xff0c;后续都失败 方法1&#xff1a;【在用&#xff0c;未测试过】 参考文献&#xff1a…

网吧steam显示没网络连接服务器,“steam需要在线进行更新,请确认您的网络连接正常,然后重试”解决方法...

sudugun 2019-7-2 23:10 [2019-07-02 22:57:03] Startup - updater built Jun 17 2019 16:32:41 [2019-07-02 22:57:03] Checking for update on startup [2019-07-02 22:57:03] 正在检查可用更新... [2019-07-02 22:57:03] Downloading manifest: client-download.steampowere…

win10重置进度条不动了_小编教你win10系统更新进度条不动了的恢复教程

win7相关教程&#xff1a; 手把手帮您win10系统设置电脑自动关机的恢复教程 win10系统有很多人都喜欢使用,我们操作的过程中常常会碰到对win10系统设置电脑自动关机进行设置的情况。如果遇到对win10系统设置电脑自动关机进行设置的情况该怎么办呢&#xff1f;很多电脑水平薄弱…

(上海站icpc)Steadily Growing Steam(动态规划)

题目链接&#xff1a;登录—专业IT笔试面试备考平台_牛客网 简化题意&#xff1a;就是给你n张牌&#xff0c;然后每张牌有一个点数和一个价值&#xff0c;然后你可以对其中k张牌修改将其点数扩大一倍&#xff0c;当然修改的牌数也可以小于k&#xff0c;然后你将这n张牌选出其中…

xp系统steam无法连接到更新服务器,教你win10系统steam更新失败的解决教程

steam是全球最大的游戏平台之一&#xff0c;它为广大游戏爱好者提供了游戏下载、购买、更新、讨论等多种功能&#xff0c;可是有时候会出现steam无法下载和更新不了的问题&#xff0c;怎么办?就此问题&#xff0c;小编整理了win10系统steam更新失败的解决教程&#xff0c;现分…

gmod无法连接更新服务器未响应,steam gmod更新不动 | 手游网游页游攻略大全

发布时间&#xff1a;2015-09-13 Dota2最近一直频繁更新,而且更新一次都是好几十兆或者几百兆,中国网速普遍比较坑爹,真实让人恼火,关键近期很多玩家都遇见dota2更新不动和dota2更新位于下载队列中的情况,更是对这款游戏产生了绝望的心情,下面小编给 ... 标签&#xff1a; 游戏…

dota2 服务器尚未更新到最新版本,dota2更新不动_steam dota2更新不动

DOTA2更新不动 不能更新 更新一直暂停怎么办 问题解决方法: 1.在安装路径里找到 :\\Dota2\\SteamApps\\common\\dota2beta\\ 然后会看到一个叫dota_lv的文件夹,删掉它,如果不放心可以自行备份! 然后再新建一个文件夹,取名dota_lv,dota_lv然后右键这个文件夹,在属性栏中将…

steam在ubuntu22.04上不更新

使用移动宽带&#xff0c;今天安装了linux版steam&#xff0c;更新不了&#xff1a; 最后把dns改为9.9.9.9正常更新&#xff1a; 设置>网络 改完关一下网络再打开&#xff0c;如图就对了