【酱浦菌-爬虫项目】爬取百度文库文档

news/2024/10/19 5:30:18/

1. 首先,定义了一个变量`url`,指向百度文库的搜索接口 ‘https://wenku.baidu.com/gsearch/rec/pcviewdocrec’。
2. 然后,设置了请求参数`data`,包括文档ID(`docId`)和查询关键词(`query`)。
3. 定义了HTTP请求的头部信息,模拟了一个Chrome浏览器的请求。
4. 使用`requests.get()`方法,发送一个GET请求到指定的URL,并将响应内容保存在`response`变量中。
5. 从响应的JSON数据中提取了相关文档的信息,包括图片的URL。
6. 遍历每个相关文档:
   - 获取图片的URL。
   - 使用`requests.get()`方法获取图片的内容。
   - 将图片内容写入到以数字命名的文件中(保存在`img`文件夹下)。
   - 打印相关文档的其他信息。
7. 最后,完成了对相关文档图片的下载操作。

完整代码如下:

python">import requests
from pprint import pprint
# 确定请求链接
url = 'https://wenku.baidu.com/gsearch/rec/pcviewdocrec'
# 请求参数
data ={
'docId':'d6b88ed8d0f34693daef5ef7ba0d4a7302766c99',
'query':'趣味答题 题目及答案',
'recPositions':''
}
headers = {'user-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'
}
response = requests.get(url = url, params = data, headers = headers)
num = 1
#pprint(response.json()['data']['relateDoc'])
for index in response.json()['data']['relateDoc']:pic = index['pic']img_content = requests.get(url =pic, headers= headers).contentwith open('img\\' + str(num) + '.jpg', mode='wb') as f:f.write(img_content)print(index)num += 1

 运行效果如下:


http://www.ppmy.cn/news/1445914.html

相关文章

反向传播算法与梯度下降的交织乐章:深度学习中的双重奏

一、引言 在深度学习的宏大乐章中,反向传播算法和梯度下降无疑是两大核心旋律。它们交织在一起,共同推动着神经网络的学习与进化。本文旨在深入探讨这两者之间的关系,以及它们如何在深度学习中发挥着不可或缺的作用。我们将从基础概念出发&a…

在Vue中使用v-viewer插件实现点击图片预览

v-viewer是一款基于 viewer.js 封装的Vue版插件,可用于图像查看,以及图片的旋转、缩放等功能预览。 使用步骤: 第一步:安装插件 yarn add v-viewernext viewerjs 第二步:引入v-viewer及必需的css样式,并…

刚刚!MySQL8.4.0 LTS发布,接着再探

📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验, Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、My…

RKNN:yolov8模型转换与板端推理流程

近期,在研究瑞芯微的RKNN模型推理时,遇到一些坑,现记录下来,以备忘,亦供同道者参考。 目录 1. 模型转换 1.1. 宿主机环境配置 1.2. onnx模型准备 1.3. onnx转rknn 2. 模型推理 2.1. 推理环境配置 2.2. 推理验证…

Kylin 使用心得

Kylin 使用心得 一、Kylin 简介 Apache Kylin 是一个开源的分布式分析引擎,专为大规模数据集设计,旨在解决大数据环境下的在线分析处理(OLAP)需求。Kylin 利用预计算(Cube)技术,将复杂的多维查…

keras卷积入门之mnist,测试准确率99.41%

import os os.environ[TF_CPP_MIN_LOG_LEVEL] 2 import keras print(keras.__version__) 3.0.1 mnist被称为深度学习的hello world,因为它太简单了,为啥那些手写辨识好区分,甚至只用全连接网络都能达到很高的准确率,因为它背景色单一,都是黑色,特征简单,你只用平铺那些像…

【2024新windows电脑部署测试环境系列】Jenkins部署 (上)

jenkins对我们测试来说挺重要的,持续集成cicd ,定时任务,远程控制,打包部署测试环境等等。虽然在一些公司,早已用上自研的这种综合控制平台,不过也至少9成以上的组织还是在用jenkins。 一个公司并不一定只有一个jenkin…

《HCIP-openEuler实验指导手册》1.6 Apache静态资源配置(目录访问)

知识点 常用用途: 软件仓库镜像及提供下载服务: 配置步骤 删除网站主目录中的文件(本实验机目录为/home/source ip为192.168.12.137 端口为81) cd /home/source rm -rf *在主目录中新建6个文件夹如下图 mkdir test{1..6}新建…