Python如何爬取post请求头的数据

ops/2025/1/16 2:34:59/

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&订阅!持续更新中,up!up!up!!

问题描述

  Python如何爬取post请求头的数据

我想爬取这个网址

https://rlzy.lnrc.com.cn/#/ww/b/a/wwba_contAll.html/%7B%7D%E7%9A%84%E6%95%B0%E6%8D%AE%EF%BC%8C%E5%B9%B6%E5%AD%98%E5%82%A8%E5%88%B0excel%E4%B8%AD%E3%80%82

数据都在list的数组中

我想要以下字段的数据,(每页十条数据,我想爬取多页的,并且最后可以将爬取到的数据存储到excel中)求帮改我的python代码

    'abc217': '',  'abc216': '',  'aca112': '',  'aae006': '',  'aab302': '',  'aab004': '',  'acb241': '',  'acb242': '',  
import requests  
import json  # POST请求的URL  
url = 'https://rlzy.lnrc.com.cn/lrs/ww/b/a/wwba_contAll.html'  headers = {  'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'  }  data = {  'abc217': 'abc217',  'abc216': 'abc216',  'aca112': 'aca112',  'aae006': 'aae006',  'aab302': 'aab302',  'aab004': 'aab004',  'acb241': 'acb241',  'acb242': 'acb242',  
}  # 发送POST请求  
response = requests.post(url, headers=headers, data=data)  # 检查响应状态码  
if response.status_code == 200:  data = response.json()  print(data)  
else:  print(f"请求失败,状态码:{response.status_code}")  

解决方案

  如下是上述问题的解决方案,仅供参考:

  你可以使用Python的requests库发送POST请求来获取数据,并使用pandas库将数据存储到Excel中。以下是一个完整的示例代码,演示如何爬取多页数据并将其存储到Excel文件中:

python">import requests
import pandas as pd# POST请求的URL
url = 'https://rlzy.lnrc.com.cn/lrs/ww/b/a/wwba_contAll.html'# 请求头
headers = {'Content-Type': 'application/x-www-form-urlencoded','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}# 每页的数据
page_size = 10# 初始化一个空的列表来存储所有数据
all_data = []# 模拟获取多页数据,假设我们要获取前5页的数据
for page_num in range(1, 6):# 请求参数,假设需要传递页码参数data = {'page': page_num,'pageSize': page_size}# 发送POST请求response = requests.post(url, headers=headers, data=data)# 检查响应状态码if response.status_code == 200:response_data = response.json()# 假设数据在response_data['list']中for item in response_data['list']:# 选择需要的字段filtered_data = {'abc217': item.get('abc217', ''),'abc216': item.get('abc216', ''),'aca112': item.get('aca112', ''),'aae006': item.get('aae006', ''),'aab302': item.get('aab302', ''),'aab004': item.get('aab004', ''),'acb241': item.get('acb241', ''),'acb242': item.get('acb242', '')}all_data.append(filtered_data)else:print(f"请求失败,状态码:{response.status_code}")# 将数据存储到Excel中
df = pd.DataFrame(all_data)
df.to_excel('output.xlsx', index=False)print("数据已成功存储到output.xlsx中")

说明:

  1. URL和Headers

    • url:目标网站的POST请求URL。
    • headers:请求头信息,模拟浏览器访问。
  2. 分页处理

    • 使用一个循环来模拟获取多页数据,假设我们需要获取前5页的数据。
    • data中假设需要传递页码参数,如pagepageSize
  3. 数据提取和过滤

    • 提取响应中的数据,假设数据在response_data['list']中。
    • 选择需要的字段,并将其存储在all_data列表中。
  4. 数据存储

    • 使用pandas库将数据存储到Excel文件中。

运行环境

确保安装了必要的库:

pip install requests pandas openpyxl

以上代码演示了如何使用Python爬取多页数据,并将其存储到Excel文件中。你需要根据实际情况调整URL、请求参数和数据提取的逻辑。

  希望如上措施及解决方案能够帮到有需要的你。

  PS:如若遇到采纳如下方案还是未解决的同学,希望不要抱怨&&急躁,毕竟影响因素众多,我写出来也是希望能够尽最大努力帮助到同类似问题的小伙伴,即把你未解决或者产生新Bug黏贴在评论区,我们大家一起来努力,一起帮你看看,可以不咯。

  若有对当前Bug有与如下提供的方法不一致,有个不情之请,希望你能把你的新思路或新方法分享到评论区,一起学习,目的就是帮助更多所需要的同学,正所谓「赠人玫瑰,手留余香」。

☀️写在最后

  如上问题有的来自我自身项目开发,有的收集网站,有的来自读者…如有侵权,立马删除。再者,针对此专栏中部分问题及其问题的解答思路或步骤等,存在少部分搜集于全网社区及人工智能问答等渠道,若最后实在是没能帮助到你,还望见谅!并非所有的解答都能解决每个人的问题,在此希望屏幕前的你能够给予宝贵的理解,而不是立刻指责或者抱怨!如果你有更优解,那建议你出教程写方案,一同学习!共同进步。

  ok,以上就是我这期的Bug修复内容啦,如果还想查找更多解决方案,你可以看看我专门收集Bug及提供解决方案的专栏《CSDN问答解惑-专业版》,都是实战中碰到的Bug,希望对你有所帮助。到此,咱们下期拜拜。

码字不易,如果这篇文章对你有所帮助,帮忙给 bug菌 来个一键三连(关注、点赞、收藏) ,您的支持就是我坚持写作分享知识点传播技术的最大动力。

同时也推荐大家关注我的硬核公众号:「猿圈奇妙屋」 ;以第一手学习bug菌的首发干货,不仅能学习更多技术硬货,还可白嫖最新BAT大厂面试真题、4000G Pdf技术书籍、万份简历/PPT模板、技术文章Markdown文档等海量资料,你想要的我都有!

📣关于我

我是bug菌,CSDN | 掘金 | InfoQ | 51CTO | 华为云 | 阿里云 | 腾讯云 等社区博客专家,C站博客之星Top30,华为云2023年度十佳博主,掘金多年度人气作者Top40,掘金等各大社区平台签约作者,51CTO年度博主Top12,掘金/InfoQ/51CTO等社区优质创作者;全网粉丝合计 30w+;硬核微信公众号「猿圈奇妙屋」,欢迎你的加入!免费白嫖最新BAT互联网公司面试真题、4000G PDF电子书籍、简历模板等海量资料,你想要的我都有,关键是你不来拿哇。



http://www.ppmy.cn/ops/109652.html

相关文章

开发中的网络问题逻辑推理分析

基于TCP/IP的逻辑推理,大部分软件从业人员都不是很懂,导致很多问题都被误认为诡异问题。有些人是惧怕TCP/IP网络书籍中的复杂知识内容,有的是被wireshark[1]显示的深红色内容所干扰。 经典案例1: 例如有一个DBA遇到了性能问题&a…

vs2019成功连接数据库mysql

②在vs2019中创建新项目,注意x64 ③ 右击项目打开属性 ④添加include路径 ⑤添加lib路径 点击确定后点击应用 ⑥ 点击全部确定 ⑦ ⑧启动mysql 进入数据库: 在数据库中创建student的表 ⑨在va2019中输入下面代码测试 注意:密码换成自己…

零基础转行自学大模型路线规划(附快速学习路线图)

每一波浪潮的到来,都意味一片无人占领的蓝海,也意味着众多新成长起来的巨头,还意味着什么?大量的技术人员需求,供不应求的开发市场,以及从业者的高薪与众多的机会。 我们最常做的事情是目送着上一次浪潮的…

c++修炼之路之AVL树与红黑树

目录 一:AVL树 1.AVL树的概念 2.AVL树插入数据后平衡因子及更新的情况 3.AVL树节点的定义 4.AVL树的插入及旋转 二:红黑树 1.红黑树的概念及性质 2.红黑树节点的定义 3.红黑树的插入操作情况 4.红黑树与AVL树的比较 接下来的日子会顺顺利利…

【AbMole】凯氏定氮法测定氨基酸含量

凯氏定氮法的原理是基于氨的定量反应,其中有机物样品中的氮通过消化和蒸馏步骤转化为氨气,并通过滴定进行量化测定。 由于氮在许多生物和环境样品中广泛存在,凯氏定氮法成为测定样品中氮含量的常用方法。往样品中加入浓硫酸和催化剂&#xf…

HarmonyOS】ArkTS学习之基于TextTimer的简易计时器的elapsedTime最小时间单位问题

本文旨在纪录自己对TextTimer使用过程的疑惑问题 我在查看教程时候,发现很多博客在onTimer(event: (utc: number, elapsedTime: number) > void) 这里提到elapsedTime:计时器经过的时间,单位为毫秒。我不清楚是否为版本问题。 在我查看ver…

Java项目: 基于SpringBoot+mybatis+maven大学生就业招聘系统(含源码+数据库+毕业论文)

一、项目简介 本项目是一套基于SpringBootmybatismaven大学生就业招聘系统 包含:项目源码、数据库脚本等,该项目附带全部源码可作为毕设使用。 项目都经过严格调试,eclipse或者idea 确保可以运行! 该系统功能完善、界面美观、操作…

快人一步迅为LPDDR5版本瑞芯微RK3588核心板升级了

性能强--iTOP-3588开发板采用瑞芯微RK3588处理器,是全新一代ALoT高端应用芯片,采用8nm LP制程,搭载八核64位CPU,四核Cortex-A76和四核Cortex-A55架构,主频高达2.4GHZ,8GB内存,32GB EMMC。四核心…