python爬虫--小白篇【爬虫实践】

news/2024/12/16 9:03:04/

一、前言

1.1、王者荣耀皮肤爬虫

        根据王者荣耀链接,将王者荣耀的全部英雄的全部皮肤图片爬取保存到本地。经过分析得到任务的三个步骤:

  1. 根据首页全部英雄列表连接获取全部英雄的名称hero_name以及对应的hero_id;
  2. 根据单个英雄的hero_name和hero_id去查找该英雄每张皮肤图片的下载连接;
  3. 根据单张皮肤图片链接地址下载并保存图片内容到文件夹中;

1.2、腾讯动漫图片爬虫

         将腾讯动漫链接中每章节中的动漫图片爬取下来保存到本地。经过分析可知,只需要获取每张动漫图片的下载地址即可,然后在每章节后点击下一章按钮即可获取其他章节的动漫图片下载链接。其中需要注意的是需要通过动作链去模拟鼠标滑动的操作,可以通过ActionChains(browser).scroll_to_element(pic).perform()完成该操作。

1.3、m3u8视频爬虫

        根据单个AcFun视频链接,将视频爬取保存到本地。经过分析可知,可以分为三个步骤:

  1. 获取m3u8列表文件;
  2. 提取所有视频片段的播放地址ts文件;
  3. 下载并合并视频片段;

二、案例

 2.1、王者荣耀皮肤爬虫演示

python">"""
@Author :江上挽风&sty
@Blog(个人博客地址):https://blog.csdn.net/weixin_56097064
@File :王者荣耀图片下载
@Time :2024/12/9 13:58
@Motto:一直努力,一直奋进,保持平常心"""
import os.path
import pprint
import reimport requests
from bs4 import BeautifulSoup
# https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/558/558-bigskin-1.jpg
# https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/577/577-bigskin-2.jpg
header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}# 根据英雄皮肤的连接下载并保存对应的英雄皮肤图片
def download_pic(pic_url, path, pic_name, hero_name):pic_content = requests.get(pic_url, headers=header).contentif not os.path.exists(f'{path}/{hero_name}'):os.mkdir(f'{path}/{hero_name}')with open(f'{path}/{hero_name}/{pic_name}.jpg', 'wb') as f:f.write(pic_content)print(f"{pic_name}下载成功")# 获取英雄的全部图片(单个英雄对应多个皮肤图片)
def get_hero_pics(hero_id,hero_name):hero_url = f"https://pvp.qq.com/web201605/herodetail/{hero_id}.shtml"r = requests.get(hero_url, headers=header)# apparent_encoding 是 Python requests 库中的一个属性,用于从响应内容中分析得出的编码方式r.encoding = r.apparent_encoding# print(r.text)soup = BeautifulSoup(r.text, 'html.parser')content = soup.find('ul', class_="pic-pf-list pic-pf-list3").get('data-imgname')pic_names = re.sub('&\d+', '', content).split('|')for num, pic_name in enumerate(pic_names):num += 1pic_url = f"https://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{hero_id}/{hero_id}-bigskin-{num}.jpg"download_pic(pic_url, path, pic_name, hero_name)# 获取全部英雄的名称和对应的hero_id
def get_hero(hero_url):hero_list = requests.get(hero_url,headers=header).json()# 这个函数主要用于以一种美观、格式化的方式打印复杂的数据结构,如多层嵌套的列表、元组和字典等。它能够使输出的结果显示得更加清晰和易于阅读pprint.pprint(hero_list)for hero in hero_list:hero_name = hero['cname']hero_id = hero['ename']get_hero_pics(hero_id,hero_name)if __name__ == '__main__':"""1、根据首页全部英雄列表连接获取全部英雄的名称hero_name以及对应的hero_id2、根据单个英雄的hero_name和hero_id去查找该英雄的全部皮肤碎片的数量,获取每张皮肤图片的下载连接3、根据单张皮肤图片链接地址下载并保存图片内容到文件夹中"""path = "D:\\ProjectCode\\Spider\\StudySpider07\\heros"heroes_url = "https://pvp.qq.com/web201605/js/herolist.json"get_hero(heroes_url)

2.2、腾讯动漫图片爬虫演示

python">"""
@Author :江上挽风&sty
@Blog(个人博客地址):https://blog.csdn.net/weixin_56097064
@File :腾讯动漫图片下载
@Time :2024/12/9 15:26
@Motto:一直努力,一直奋进,保持平常心"""
import os.path
import timeimport requests
from selenium import webdriver
from selenium.webdriver.edge.service import Service
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChainsservice = Service(executable_path='D:\ApplicationsSoftware\EdgeDriver\edgedriver_win32\msedgedriver.exe')
opt = Options()
opt.add_argument('--disable-blink-features=AutomationControlled')
# opt.headless = True# 下载动漫图片
def download(url ,path):browser = webdriver.Edge(service=service, options=opt)browser.maximize_window()browser.get(url)time.sleep(1)filename = browser.find_element(by=By.XPATH,value='//*[@id="comicTitle"]/span[@class="title-comicHeading"]').textpic_list = browser.find_elements(by=By.XPATH, value='//*[@id="comicContain"]/li/img')for num, pic in enumerate(pic_list):time.sleep(0.5)ActionChains(browser).scroll_to_element(pic).perform()link = pic.get_attribute('src')pic_content = requests.get(link).contentif not os.path.exists(f'{path}/{filename}'):os.mkdir(f'{path}/{filename}')with open(f'{path}/{filename}/{num}.jpg', 'wb') as f:f.write(pic_content)# print(link)print(f"已下载...{filename}....第{num+1}张图片")next_page = browser.find_element(by=By.XPATH, value='//*[@id="mainControlNext"]').get_attribute('href')browser.close()return next_pageif __name__ == '__main__':path = "D:\\ProjectCode\\Spider\\StudySpider07\\动漫"url = "https://ac.qq.com/ComicView/index/id/656073/cid/68282"while url:url = download(url, path)

2.3、m3u8视频爬虫演示

python">"""
@Author :江上挽风&sty
@Blog(个人博客地址):https://blog.csdn.net/weixin_56097064
@File :视频爬虫
@Time :2024/12/9 16:37
@Motto:一直努力,一直奋进,保持平常心"""
import pprint
import re
import json
import requests
from tqdm import tqdm # 进度条模块
from bs4 import BeautifulSoupheader = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}# 获取m3u8列表文件
def get_m3u8_list(url):resp = requests.get(url,headers=header)# print(resp.text)# 正则表达式去匹配info = re.findall('window.pageInfo = window.videoInfo = (.*?) window.videoResource', resp.text, re.S)[0].strip()[:-1]# 逐层剥开找到m3u8地址info_json = json.loads(json.loads(info)['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['url']filename = json.loads(info)['title']# print(filename)# pprint.pp(info_json)return info_json,filename# 提取所有视频片段的播放地址ts文件
def get_ts_files(m3u8_url):resp = requests.get(m3u8_url, headers=header)# print(resp.text)ts_files = re.sub('#.*', '', resp.text).strip()return ts_files# 下载并合并视频片段
def download_combine(ts_files, path, filename):with open(f'{path}/{filename}.mp4', 'ab') as f:for ts in tqdm(ts_files):# 地址拼接ts = 'https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + ts# 获取地址二进制流内容ts_content = requests.get(ts, headers=header).contentf.write(ts_content)# # 获取目录页的视频链接
# def get_index_link():
#     index_url = 'https://www.acfun.cn/rest/pc-direct/homePage/searchDefault'
#     resp = requests.get(index_url, headers=header)
#     print(resp.text)
#     soup = BeautifulSoup(resp.text, 'html.parser')
#     link_list = soup.findAll('a', class_="list-wrap")
#     # 遍历所有的<a>标签并打印它们的href属性值
#     for tag in link_list:
#         href = tag.get('href')
#         if href:  # 确保href属性存在
#             print(href)
#
#     else:
#         print('请求失败,状态码:', resp.status_code)
#     print(link_list)def main():url = "https://www.acfun.cn/v/ac46628128"path = "D:\\ProjectCode\\Spider\\StudySpider07\\videos"m3u8_url, filename = get_m3u8_list(url)ts_files = get_ts_files(m3u8_url)download_combine(ts_files, path, filename)# get_index_link()if __name__ == '__main__':main()


http://www.ppmy.cn/news/1555547.html

相关文章

右玉200MW光伏电站项目 微气象、安全警卫、视频监控系统

一、项目名称 山西右玉200MW光伏电站项目 微气象、安全警卫、视频监控系统 二、项目背景&#xff1a; 山西右玉光伏发电项目位于右玉县境内&#xff0c;总装机容量为200MW&#xff0c;即太阳能电池阵列共由200个1MW多晶硅电池阵列子方阵组成&#xff0c;每个子方阵包含太阳能…

Vue Web开发(七)

1. echarts介绍 echarts官方文档 首先我们先完成每个页面的路由&#xff0c;之前已经有home页面和user页面&#xff0c;缺少mail页面和其它选项下的page1和page2页面。在view文件夹下新建mail文件夹&#xff0c;新建index.vue&#xff0c;填充user页面的内容即可。在view下新建…

数据采集:各地区动态IP数据质量差异分析

“在当今信息化社会&#xff0c;数据采集已成为各行各业不可或缺的一部分&#xff0c;它为企业决策、市场分析、学术研究等提供了重要的数据支持。而在数据采集过程中&#xff0c;动态IP作为一种频繁更换IP地址的代理服务&#xff0c;因其能够模拟不同地理位置的用户访问、突破…

【C++游记】Vector的使用和模拟实现

枫の个人主页 你不能改变过去&#xff0c;但你可以改变未来 算法/C/数据结构/C Hello&#xff0c;这里是小枫。C语言与数据结构和算法初阶两个板块都更新完毕&#xff0c;我们继续来学习C的内容呀。C是接近底层有比较经典的语言&#xff0c;因此学习起来注定枯燥无味&#xf…

【C++】sophus : test_macros.hpp 用于单元测试的宏和辅助函数 (四)

这段代码定义了一组用于单元测试的宏和辅助函数&#xff0c;主要目的是方便地进行各种类型的断言&#xff0c;并提供清晰的错误信息输出。 1. details::pretty(T) 函数: 这是一个模板函数&#xff0c;用于将各种类型的值转换为易于阅读的字符串表示形式。它使用模板特化来处理不…

【故障处理--修改CI流水线】

背景&#xff1a;研发同事反映CI流水线卡顿严重&#xff0c;判断是移动云镜像仓库的带宽太小&#xff0c;故在公有云搭建一个harbor仓库&#xff0c;这就意味着CI流水线有些配置需要改动 1、CI流水线的介绍 helm-chart/pcas-appstore-hy存放的是chart包需要的文件 Dockerfile…

框架模块说明 #07 API加密

背景 在实际开发过程中&#xff0c;我们通常会涉及到数据加密的问题。本文重点探讨两个方面&#xff1a;一是外部接口调用时的数据加密&#xff0c;二是服务间调用的数据加密与解密。 对于外部接口调用&#xff0c;每个用户将拥有独立的动态 AES 加密密钥&#xff08;KEY&…

【电源专题】开关转换器的三种过流保护方案

开关转换器内部集成功率开关,使限流保护成为基本功能。常用限流方案有三种:恒流限流、折返限流和打嗝模式限流。 恒流限流 对于恒流限流方案,当发生过载情况时,输出电流保持恒定值(ILIMIT)。因此,输出电压会下降。这种方案通过逐周期限流实现,利用流经功率开关的峰值电感…