2024.4.16 Python爬虫复习day04

day04_爬取图片和数据

1.爬虫入门

知识点:

网络爬虫 : （又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫步骤 :1.准备有效的URL2.发送请求,获取响应对象3.从响应对象中提取数据4.检索自己想要的数据5.数据保存或者数据可视化requests模块: 模拟人去浏览器中发送请求给web服务器1.导包2.变量接收响应对象 = requests.get(url)

示例:

"""
安装requests模块
pip install requests
"""
# 1.导包
import requests# 2.准备有效URL
url = 'http://www.baidu.com/'
# 3.使用requests发送请求,或者Response对象
res = requests.get(url)
print(res)
# 4.从Response对象中提取数据
# 获取url
print(res.url)
# 获取状态码
print(res.status_code)
# 获取头
print(res.headers)
# 获取cookies
print(res.cookies)
# 获取编码
print(res.encoding)
# 修改编码
# res.encoding = 'utf8'
# print(res.encoding)
# 获取文本
# print(res.text)
# 获取内容,默认二进制需要使用decode()解码
print(res.content.decode())

2.web服务器:

前提: 复制source资源到项目中

# 1.导包
from fastapi import FastAPI
from fastapi import Response
import uvicorn# 2.创建对象
app = FastAPI()# 3.使用对象接收浏览器请求,并且使用对象给浏览器响应资源
# 注意: get中传入请求的资源路径
@app.get('/')
def func():with open('source/html/index.html', 'rb') as f:data = f.read()res = Response(data)return res@app.get('/{html_name}')
def func(html_name: str):with open(f'source/html/{html_name}', 'rb') as f:data = f.read()res = Response(data)return res@app.get('/images/{img_name}')
def func(img_name: str):with open(f'source/images/{img_name}', 'rb') as f:data = f.read()res = Response(data)return res@app.get('/video/{vi_name}')
def func(vi_name: str):with open(f'source/video/{vi_name}', 'rb') as f:data = f.read()res = Response(data)return res# 4.启动服务器(指定fastapi对象,主机地址,端口号)
uvicorn.run(app,host='127.0.0.1',port=9091)# 浏览器可以通过: http://127.0.0.1:9091

3.爬取图片

爬取图片方式1:

核心知识点:

爬虫相关知识点

字符串切割方法: split()

正则表达式match匹配

列表的定义和遍历

if判断

枚举函数自动生成从0开始的编号: enumerate()

文件操作相关知识点

# 1.导包
import requests
import re# 2.准备要爬取数据的页面有效url
url = 'http://127.0.0.1:9091/index.html'# 3.requests发送请求,获取响应对象
response = requests.get(url)# 4.content从响应对象中提取数据
html_str = response.content.decode()# 5.正则表达式从页面数据中匹配所有图片路径
# 把每一行放到列表中
html_list = html_str.split('\n')
# print(html_list) # ['    <img src="../images/0.jpg" width="350px" height="160px" style="margin-top:100px" >']
# 提前定义空列表用于存储图片路径
img_list = []
# 遍历列表依次匹配每一行数据
for line in html_list:data = re.match('.*<img src="(.+?)"', line)# 如果匹配成功,把路径存储起来if data:img_list.append(data.group(1))
# 循环外测试图片路径是否爬取到
print(img_list)# 6.拼接图片url,并且批量发送请求
base_url = 'http://127.0.0.1:9091'
# enumerate给容器中每个元素生成对应的从0开始的编号
# 遍历图片路径列表
for i, img_path in enumerate(img_list):# 拼接图片urlimg_url = base_url + img_path[2:]# 发送请求获取响应对象r = requests.get(img_url)# 从对象中获取资源data = r.content# 7.保存所有图片到本地with open(f'load/{i}.jpg', 'wb') as f:f.write(data)print(f"{i}.jpg保存成功!")

爬取图片方式2:

核心知识点:

爬虫相关知识点

正则表达式findall匹配

列表的遍历

枚举函数自动生成从0开始的编号: enumerate()

文件操作相关知识点

# 1.导包
import requests
import re
# 2.准备有效的url
url = 'http://127.0.0.1:9091/'
# 3.发送请求,获取响应对象
response = requests.get(url)
# 4.从响应对象中提取数据
html_str = response.content.decode()
# print(html_str)
# 5.正则表达式匹配想要的数据
img_list = re.findall('<img src="(.+?)" ', html_str)
print(img_list)
# 6.遍历图片列表,拼接url,批量发送请求获取资源
# 定义基础url
base_url = 'http://127.0.0.1:9091/'
for i,img_path in enumerate(img_list):# 拼接图片urlimg_url = base_url + img_path[3:]# 批量发送请求获取资源r = requests.get(img_url)# 从响应对象中提取数据data = r.content# 7.保存数据with open(f'load/图片/{i}.jpg', 'wb') as f:f.write(data)

4.爬取视频实战:

# 1.导包
import requests
import re
# 2.准备有效的url
url = 'http://127.0.0.1:9091/video.html'
# 3.发送请求,获取响应对象
response = requests.get(url)
# 4.从响应对象中提取数据
html_str = response.content.decode()
print(html_str)
# 5.正则表达式匹配想要的数据
video_list = re.findall('<source src="(.+?)" ', html_str)
print(video_list)
# 6.遍历图片列表,拼接url,批量发送请求获取资源
# 定义基础url
base_url = 'http://127.0.0.1:9091/'
for i,video_path in enumerate(video_list):# 拼接图片urlvideo_url = base_url + video_path[3:]# print(video_url)# 批量发送请求获取资源r = requests.get(video_url)# 从响应对象中提取数据data = r.content# 7.保存数据with open(f'load/视频/{i}.mp4', 'wb') as f:f.write(data)

5.爬取文本

爬取文本方式1:

核心知识点:

爬虫相关知识点

字符串切割方法: split()

正则表达式match匹配

列表的定义和遍历

if判断

list(zip(列表1, 列表2)) : 把两个列表中数据合并为 [(),(),…]

文件操作相关知识点

# 1.导包
import requests
import re# 2.准备有效的url
url = 'http://127.0.0.1:9091/gdp.html'
# 3.发送请求,获取响应对象
response = requests.get(url)
# 4.从响应对象中提取数据
html_str = response.content.decode()
print(html_str)
# 5.检索自己想要的数据
# 根据\n切割,把每行数据放到列表中
html_list = html_str.split('\n')
# 提前定义空列表,存储所有国家
country_list = []
gdp_list = []
# 遍历列表获取每行数据
for line in html_list:# 依次在每行数据中检索国家data = re.match('.*<a href=""><font>(.+)</font>.*', line)if data:country_list.append(data.group(1))# 依次在每行数据中检索gdp多少亿元data = re.match('.*￥(.+)亿元.*', line)if data:gdp_list.append(data.group(1))
# 验证是否爬取到数据
print(country_list)
print(gdp_list)
# 变成列表嵌套元组方式
# 注意: zip功能就是把两个列表中元素一一对应成组
gdp_data_list = list(zip(country_list, gdp_list))
# 6.保存数据
with open('load/文件/gdp.txt', 'w', encoding='utf8') as f:# 注意: write只能写字符,需要使用str转换f.write(str(gdp_data_list))

爬取文本方式2:

核心知识点:

爬虫相关知识点

正则表达式findall匹配

正则表达式标志位修饰符: re.S

文件操作相关知识点

# 1.导包
import requests
import re# 2.准备有效的url
url = 'http://127.0.0.1:9091/gdp.html'
# 3.发送请求,并且获取响应对象
response = requests.get(url)
# 4.从响应对象中提取数据
html_str = response.content.decode()
# print(html_str)
# 5.检索自己想要的资源
gdp_data_list = re.findall('<a href=""><font>(.+?)</font>.*?￥(.+?)亿元', html_str, re.S)
print(gdp_data_list)
# 6.保存数据
with open('load/文件/gdp.txt', 'w', encoding='utf8') as f:f.write(str(gdp_data_list))
print('gdp数据保存成功!')