Python爬虫入门教程21:文档的爬取

news/2024/11/30 14:41:10/

前言💨

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

前文内容💨

Python爬虫入门教程01:豆瓣Top电影爬取

Python爬虫入门教程02:小说爬取

Python爬虫入门教程03:二手房数据爬取

Python爬虫入门教程04:招聘信息爬取

Python爬虫入门教程05:B站视频弹幕的爬取

Python爬虫入门教程06:爬取数据后的词云图制作

Python爬虫入门教程07:腾讯视频弹幕爬取

Python爬虫入门教程08:爬取csdn文章保存成PDF

Python爬虫入门教程09:多线程爬取表情包图片

Python爬虫入门教程10:彼岸壁纸爬取

Python爬虫入门教程11:新版王者荣耀皮肤图片的爬取

Python爬虫入门教程12:英雄联盟皮肤图片的爬取

Python爬虫入门教程13:高质量电脑桌面壁纸爬取

Python爬虫入门教程14:有声书音频爬取

Python爬虫入门教程15:音乐网站数据的爬取

Python爬虫入门教程17:音乐歌曲的爬取

Python爬虫入门教程18:好看视频的爬取

Python爬取入门教程19:YY短视频的爬取

Python爬虫入门教程20:IP代理的爬取使用

PS:如有需要 Python学习资料 以及 解答 的小伙伴可以加点击下方链接自行获取
python免费学习资料以及群交流解答点击即可加入

基本开发环境💨

  • Python 3.6
  • Pycharm

相关模块的使用💨

import os
import requests
import time
import re
import json
from docx import Document
from docx.shared import Cm

安装Python并添加到环境变量,pip安装需要的相关模块即可。

💥目标网页分析

在这里插入图片描述

网站的文档内容,都是以图片形式存在的。它有自己的数据接口

接口链接:

https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486

接口的请求参数
在这里插入图片描述

整体思路

  • 请求网页返回response数据(字符串)
  • 通过re模块匹配提取中间的数据(列表)索引取0(字符串)
  • 通过json模块是把提取出来的数据转换成json模块
  • 通过遍历获取每张图片的url地址
  • 保存图片到本地文件夹
  • 把图片保存到word文档

爬虫代码实现

def download():content = 0for page in range(1, 96, 6):# 给定 2秒延时time.sleep(2)# 获取时间戳now_time = int(time.time() * 1000)url = 'https://openapi.book118.com/getPreview.html'# 请求参数params = {'project_id': '1','aid': '272112230','t': 'f2c66902d6b63726d8e08b557fef90fb','view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1','page': f'{page}','_': now_time,}# 请求头headers = {'Host': 'openapi.book118.com','Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, params=params, headers=headers)# 使用正则表达式提取内容result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]# 字符串转json数据json_data = json.loads(result)['data']# 字典值的遍历for value in json_data.values():content += 1# 拼接图片urlimg_url = 'http:' + valueprint(img_url)headers_1 = {'Host': 'view-cache.book118.com','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}# 请求图片url地址 获取content二进制数据img_content = requests.get(url=img_url, headers=headers_1).content# 文件名img_name = str(content) + '.jpg'# 保存路径filename = 'img\\'# 以二进制方式保存 (图片、音频、视频等文件都是以二进制的方式保存)with open(filename + img_name, mode='wb') as f:f.write(img_content)

注意点:

1、一定要给延时,不然后面接口数据会请求不到。

2、请求图片url的时候headers参数需要写完整,否则保存图片是无法打开的

3、命名最好是给定数字,1.jpg、2.jpg 这样,方便后续保存到word

爬虫部分的代码还是比较简单的,没有什么特别的难度。

爬取这些文档,都是需要打印或者查询所以要把这些单张的图片都保存到word文档里面。

💥写入文档

def save_picture():document = Document()path = './img/'lis = os.listdir(path)c = []for li in lis:index = li.replace('.jpg', '')c.append(index)c_1 = sorted(list(map(int, c)))print(c_1)new_files = [(str(i) + '.jpg') for i in c_1]for num in new_files:img_path = path + numdocument.add_picture(img_path, width=Cm(17), height=Cm(24))document.save('tu.doc')  # 保存文档os.remove(img_path)  # 删除保存在本地的图片

http://www.ppmy.cn/news/403733.html

相关文章

Flowable服务组件-扩展组件

Flowable服务组件-扩展组件 扩展组件 文章目录 Flowable服务组件-扩展组件前言Flowable给我们提供了非常丰富的组件,但是在实际场景中,我们有需要企业个性化的组件,如何扩展自己的组件至关重要 一、扩展微服务回调组件二、程序步骤1.定义我们…

flutter创建、安装扩展包、打包apk

1、创建APK项目 要在VSCode中创建一个Flutter应用程序,请按照以下步骤进行操作: 安装Flutter SDK:请确保你已经安装了Flutter SDK,并配置了Flutter的环境。你可以在Flutter的官方网站上找到安装和设置Flutter的详细说明。 安装V…

从代码理解工业缺陷检测性能指标AUROC及最佳阈值的求取

话不多说,先上代码,看看是怎么求的,再来分析原理。 # -*- coding:utf-8 -*- # Peoject:004_MyScripts # File:AUROC_test # User:csu.pan-|| # Time:2023/6/15 10:46 # IDE: PyCharm # Func: A…

idea 添加jar包

要添加一个JAR包到Java项目中,你可以按照以下步骤进行操作: 1. 在你的项目文件夹中创建一个名为"lib"(或者其他合适的名字)的文件夹。这个文件夹将用于存放JAR包。 2. 获取你要添加的JAR包文件(例如&#…

PMP学习重点笔记(项目资源管理)

词条内容项目资源管理概念 规划资源管理 估算活动资源 获取资源 建设团队 管理团队 控制资源 规划资源管理 定义如何估算、获取、管理和利用团队以及实物资源的过程。 仅开展一次。 I:项目章程、项目管理计划(质量管理计划、范围基准)、项目文…

framework编译应用代码

代码编译 APP或Service代码单编调试 1、在aosp文件目录下在将环境变量加载到内存中,在终端中输入下面命令 source build/envsetup.sh 2、选择平台编译选项 lunch 3、输入后会出现一个选择列表,然后输入你想要的项目的序号即可。如下所示我这里选择的7…

基于html+css的图展示128

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

Android手机刷入Windows,Windows手机刷成安卓 第二款神机诞生

中关村在线消息:相信大家一定对HTC HD2不陌生,被称为刷机神器,可以刷Windows系统、安卓2.3—6.0,Ubuntu手机系统等。不过今天,诺基亚的一款手机“继承”了HD2刷机神器称号,就是Lumia 525。经过XDA大神的折腾…