python爬虫学习第十一篇爬取指定类型数据

devtools/2025/2/27 17:03:32/

最近在学习Python爬虫的过程中,尝试用爬虫获取指定类型的数据。今天,我想和大家分享一下我的实践过程和遇到的问题。

一、实现目标

目标是从一个网站的API接口获取不同类型的食品数据。

比如,第一步我想获取汉堡、小食、甜品等不同类型的数据,

第二步根据用户输入的选择返回相应的结果。

二、代码实现

首先,我用到了requests库来发送HTTP请求。我定义了一个字典types,用来保存所有产品的关键字,这些关键字对应API接口需要的参数。然后,我通过用户输入选择对应的类型,并发送POST请求获取数据。

以下是代码示例:

第一步获取所有数据

import requests
url = 'https://example.com/api/data'
# 使用列表保存所有产品的关键字 请求参数
types = ['season', 'ham','snack', 'dessert', 'breakfirst','meats', 'coffee', 'happy_meal']
# 循环列表,每循环一次,发起一个请求
for type in types:data = {'type': type}res = requests.post(url, data=data)res_data = res.json()for k, v in res_data.items(): # 因为键会变化,所以不能够直接写死,要通过循环获取当前响应中的键print('当前类型:----', k)if v!= None:for i in v:print(i['FName'])else:print('没有内容')

在这里的时候我遇到了报错,他提示有数据为空,然后我当时的处理方式是同try,except形式去处理 except就直接break了,

try:for i in v:print(i['FName'])
except:break

 这里是上篇博客处理报错的方式,报错就直接退出,但是这里这么写会导致获取中断后面的信息就不获取了,把break改成print(“没有内容”),这样就可以了。

上面代码写的是使用判断语句去处理报错,因为如果他网页内容输出不是none而是一个空【】那么网页是不会报错的,他还会循环下去,这时候就需要用判断条件去处理列表为空的情况了

第二步

import requests# 目标URL
url = 'https://example.com/api/data'#示例代码# 使用字典保存所有产品的关键字请求参数
types = {'季节新品': 'season','汉堡': 'ham','小食': 'snack','甜品': 'dessert','早餐': 'breakfast','饮料': 'meats',  # 注意:这里可能是参数错误,饮料应该是 'drink''咖啡': 'coffee','儿童餐': 'happy_meal',
}# 结合用户输入选择对应的类型
name = input(f"请输入你要获取的菜单:{','.join(list(types.keys()))} ")# 判断当前用户输入的内容是否属于菜单的一种
if name in types:# 从字典中取出关键字data = {'type': types[name]}# 发起POST请求res = requests.post(url, data=data)res_data = res.json()# 解析数据:注意键不同,不能直接写死for k, v in res_data.items():print('当前类型:----', k)if v is not None:  # 如果v不为None,执行for循环for i in v:print(i['FName'])else:print('没有内容')
else:print('没有这个选择')
问题一

在写代码的时候,我一直在琢磨怎么让用户输入的内容和我定义的选项匹配起来。毕竟,我需要判断用户输入的是否是我提供的那些选项之一。比如,用户输入了一个食品类型,我得确认这个类型是不是在我的列表里。

一开始,我有点犯难,不知道该怎么实现。后来,我想到了一个好办法:可以用 in 关键字来判断!我让用户输入的内容赋值给一个变量,然后用 in 来检查这个变量是否在我的选项列表里。如果匹配上了,就继续往下执行代码;如果对不上,就直接告诉用户“没有这个选项”。

这个方法既简单又实用,一下子就解决了我的问题。

问题二

当我想要把所有可选的分类信息展示给用户时,我突然卡住了。我有一个字典保存了所有的分类,但我不知道怎么把里面的分类名称取出来展示给用户。一开始,我尝试直接打印字典的内容,但结果看起来很乱,还带着中括号和引号,一点都不美观。

后来,我突然想起可以用 .keys() 方法来提取字典中的键(也就是分类名称)。但是,.keys() 返回的结果是一个字典视图对象,看起来还是不太友好。于是,我把它转换成了一个列表,这样看起来就清晰多了。不过,列表外面还是会带中括号,这让我觉得还是不够完美。

最后,我灵机一动,用到了 .join() 方法。我把列表转换成了一个用逗号分隔的字符串,这样中括号就不见了,输出结果变得非常美观。

三、总结

通过这次实践,我不仅学会了如何用爬虫获取指定类型的数据,还学会了如何处理网络请求中可能出现的问题。虽然遇到了一些挫折,但这些问题也让我更加深刻地理解了爬虫开发的复杂性。


http://www.ppmy.cn/devtools/163115.html

相关文章

计算机毕设-基于springboot的人工智能领域复合型人才校企协同培养管理系统的设计与实现(附源码+lw+ppt+开题报告)

博主介绍:✌多个项目实战经验、多个大型网购商城开发经验、在某机构指导学员上千名、专注于本行业领域✌ 技术范围:Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战…

大白话css第二章深入学习

CSS学习第二阶段主要是深入掌握一些更复杂、更实用的知识和技能,以下用大白话为你详细介绍并给出代码示例: 盒模型与布局 盒模型深入理解 解释:前面说过每个HTML元素像个盒子,现在要更深入了解。内容区域就是盒子里真正放东西的…

怎么合并主从分支,要注意什么

在 Git 中合并主从分支(例如将 feature 分支合并到 main 分支)是一个常见操作。以下是具体步骤和注意事项: 合并分支的步骤 切换到主分支 git checkout main确保当前在 main 分支。 拉取最新代码 git pull origin main确保 main 分支是最…

如果二者隔离级别不一致,以哪个为主。例如@Transactional 隔离级别是RC,mysql是RR

如果 Spring 的 Transactional 隔离级别 和 数据库的隔离级别 不一致,最终生效的隔离级别取决于以下两种情况: 1. Spring 隔离级别优先级更高 Spring 的行为: 当你在 Transactional 注解中显式配置了隔离级别(例如 isolation Iso…

排序模板——C++

0.排序模板题目 题目描述 将读入的 N 个数从小到大排序后输出。 输入格式 第一行为一个正整数 N。 第二行包含 N 个空格隔开的正整数 ai​,为你需要进行排序的数。 输出格式 将给定的 N 个数从小到大输出,数之间空格隔开,行末换行且无空格。 …

MySQL表转移数据的三种方式

说明:在一些情况,像大表修改表结构,重新建立分区(对已有表建立分区,对历史数据是不生效的),或者表备份,我们需要将表的数据,从一张表转移到另外一张表里。本文介绍&#…

计算机毕设-基于springboot的仁和机构的体检预约系统的设计与实现(附源码+lw+ppt+开题报告)

博主介绍:✌多个项目实战经验、多个大型网购商城开发经验、在某机构指导学员上千名、专注于本行业领域✌ 技术范围:Java实战项目、Python实战项目、微信小程序/安卓实战项目、爬虫大数据实战项目、Nodejs实战项目、PHP实战项目、.NET实战项目、Golang实战…

pyrender 自动计算相机 pose

目录 计算smpl高和宽 pyrender 自动计算相机 pose 题目: 计算smpl高和宽 import numpy as np# 假设 vertices 是 (N, 3) 的数组 x = vertices[:, 0] # x 坐标 y = vertices[:, 1] # y 坐标# 计算宽度和高度 width = np.max(x) - np.min(x) height = np.max(y) - np.min(…