搞的谁还不会爬福利美女跳舞视频一样,用我这个方法非常简单。

news/2024/11/30 1:37:53/

大家好啊!经常听别人说爬虫玩的好,*****!其实没有这么恐怖,爬虫你一般都是采集公开的信息,所以不会像网络传言那样,大家只要遵守协议,不会出问题的。

 话说学编程语言的应该都是男孩子哈,所以今天这个大家应该会挺喜欢的吧,毕竟我都喜欢看票了的女孩子,更别说你们男孩子了!

这个喜欢吗?我都喜欢!

知识点:采集基本流程re正则表达式简单使用requestsjson数据解析方法数据保存

采集网站:

 开发环境

Python3.8

编辑器

pycharm

模块:

  • requests

  • re

安装模块:win + R 输入cmd 输入安装命令 pip install 模块名即可

如果爆红,估计是网络连接超时,因为它这个还是挺大的,自己加个镜像源就可以了!

整个案例的基本流程

 

一. 数据来源分析

    确定采集内容是什么? (目标网址, 网址里面数据)

    通过开发者工具进行抓包分析, 分析我们想要数据 通过请求那个url地址可以获得

    I. 通过分析可以知道 播放url地址是什么?

    II. 通过播放地址, 去分析找寻, 数据包是在哪?

    III. 通过两个数据包 请求参数对比, 可以知道 只要获取所有ID 就可以获取内容

    (图片id MP4ID 音乐ID 还是什么ID 都可以去列表页面获取)

    IV. 去分析 mp4ID可以从哪里获取 (一般情况都可以在列表页面获取)

我想要获取播放地址 >>> 要得到数据包 >>> 获取ID
二. 代码实现步骤 发送请求 获取数据 解析数据 保存数据

    发送请求, 对于舞蹈列表页面发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 ID

    发送请求, 把ID传入到 数据包里面 发送请求

    获取数据, 服务器返回数据内容

    解析数据, 提取我们想要数据内容 标题 以及播放地址

    保存数据, 把内容保存本地

    多页数据采集

完整代码

导入模块

# 导入数据请求模块
import requests   # 第三方模块 pip install requests 需要自行安装
# 导入re正则表达式
import re   # 内置模块 不需要安装
# 导入格式化输出模块
import pprint   # 内置模块 不需要安装

发送请求, 对于舞蹈视频列表页面发送请求

for page in range(1, 11):print(f'正在爬取第{page}页的数据内容')url = f'https:// **** .com/g/all?set_id=51&order=hot&page={page}'# 爬虫是模拟浏览器对于服务器发送请求, 然后获取服务器返回数据内容# user-agent: 用户代理 表示浏览器基本身份信息  (一种简单反反爬手段)headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'}# 通过requests模块里面get请求方式对于url地址发送请求, 并且携带上headers请求进行伪装, 最后用自定义变量response接收返回数据response = requests.get(url=url, headers=headers)# <Response [200]> 表示请求成功, 请求网址成功了  *** 200状态码表示请求成功, 但是不一定能够得到数据

获取数据, 服务器返回数据内容 response.text 获取响应文本数据

    # print(response.text)

解析数据, 提取我们想要数据内容 视频ID

    # 解析方式: css re xpath# <li data-vid="676382675">  想要数据 可以(.*?) 从response.text 里面去找寻这样数据内容# .*?  是可以匹配任意字符(除了\n换行符以外)  如果你只是单纯提取数字 最好用 \d+ 匹配一个或者多个数字video_ids = re.findall('<li data-vid="(\d+)">', response.text)  # 返回列表数据for video_id in video_ids:  # 通过for循环遍历 提取列表里面元素 一个一个提取# print(video_id)
  1. 发送请求, 把视频ID传入到视频数据包里面

  2. 发送请求获取数据, 服务器返回数据内容

        # f 字符串格式化方法 {} 占位符video_info = f'https:// **** .com/moment/getMomentContent?videoId={video_id}&uid=&_=1647433310180'json_data = requests.get(url=video_info, headers=headers).json()# print(json_data)# pprint.pprint(json_data)# 根据冒号左边的内容, 提取冒号右边的内容

解析数据

        title = json_data['data']['moment']['title']video_url = json_data['data']['moment']['videoInfo']['definitions'][0]['url']

保存数据 >>> 发送请求 并且获取数据

        """response.text   >>> 文本数据返回字符串数据response.json() >>> json字典数据response.content >>> 二进制数据"""video_content = requests.get(url=video_url, headers=headers).contentwith open('video\\' + title + '.mp4', mode='wb') as f:f.write(video_content)print(title, video_url)

结语

今天就分享到这里了,完整代码,在线解答可以点击下方名片自动获取!

对下一篇大家想看什么内容,可在评论区留言哦!

 


http://www.ppmy.cn/news/39138.html

相关文章

什么是PACS系统? 其特点是什么? PACS系统应该具有哪些功能?

什么是PACS系统? 其特点是什么? PACS系统应该具有哪些功能? PACS系统是PictureArchivingandCommunicationSystems的缩写&#xff0c;意为影像归档和通信系统。它是应用在医院影像科室的系统&#xff0c;主要的任务就是把日常产生的各种医学影像 (包括核磁&#xff0c;CT&am…

python知识-爬虫

python知识-爬虫 1.requests 使用requests请求数据的流程 &#xff08;1&#xff09;请求网络数据,requests.get(“请求地址”) &#xff08;2&#xff09;设置解码方式&#xff08;乱码时设置&#xff0c;在获取结果之前设置&#xff09; &#xff08;3&#xff09;获取请…

【JavaWeb】7—会话控制

⭐⭐⭐⭐⭐⭐ Github主页&#x1f449;https://github.com/A-BigTree 笔记链接&#x1f449;https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ 如果可以&#xff0c;麻烦各位看官顺手点个star~&#x1f60a; 如果文章对你有所帮助&#xff0c;可以点赞&#x1f44d;…

python外篇(流)

文章篇幅较大&#xff0c;但又不可分割所以我尽量标题细化一下。 目录 流的分类 字节流 包裹流 io.TextIOWrapper io.BufferedReader io.BufferedWriter io.BufferedRandom io.BufferedRWPair 文本流 文件流 open方法 流的分类 ### 分类 根据读写操作&#xff1a…

Mybatis一级缓存和二级缓存(带测试方法)

目录 一、什么是缓存 二、Mabtis一级缓存 &#xff08;1&#xff09;测试一级缓存 &#xff08;2&#xff09;清空一级缓存 三、Mybatis二级缓存 &#xff08;1&#xff09;开启二级缓存 &#xff08;2&#xff09;测试二级缓存 一、什么是缓存 缓存是内存当中一块存储数…

linux系统编程(6)--守护进程

1.终端概念 在UNIX系统中&#xff0c;用户通过终端登录系统后得到一个Shell进程&#xff0c;这个终端成为Shell进程的控制终端&#xff08;Controlling Terminal&#xff09;&#xff0c;进程中&#xff0c;控制终端是保存在PCB中的信息&#xff0c;而fork会复制PCB中的信息&a…

面向对象编程(基础)3:对象的内存解析

目录 3.1 JVM内存结构划分 3.2 对象内存解析 举例&#xff1a; 内存解析图&#xff1a; 面试题&#xff1a;对象名中存储的是什么呢&#xff1f; 3.3 练习 3.1 JVM内存结构划分 HotSpot Java虚拟机的架构图如下。其中我们主要关心的是运行时数据区部分&#xff08;Runtime …

使用ffmpeg生成测试视频和图片

要使用FFmpeg生成测试视频和图片&#xff0c;需要安装FFmpeg&#xff0c;并使用命令行工具执行相应的命令。 一、生成测试视频 创建一个测试视频源文件 test.mp4&#xff1a; ffmpeg -f lavfi -i testsrcduration5:size1280x720:rate30 test.mp4 上述命令可以生成一个时长…