爬取原创力文档数据

news/2025/2/12 19:40:15/

1 使用工具

影刀RPA

2 代码流程

在这里插入图片描述

3 关键点

  1. 此方案只适合抓取非VIP即可预览全文的文档,抓取下来的数据是图片

  2. 打开网址后,需要鼠标向下滚动一段距离才能触发“下一页”按钮

  3. 抓取下来的链接,有些是文档中间的广告图片,有效的文档其实是“//view-cache.book118.com”,需要过滤掉非此开头的广告链接,如下:在这里插入图片描述

  4. 文档图片刷新很玄学,需要上下滑动网页才能刷新出来,代码中用了无限循环滚动鼠标来解决,检测到没有刷新时打转的“待刷新”才抓取图片链接

  5. 判断是否抓取到最后一页,是对“继续预览”文字的检测,如果不出现就说明已经是最后一页,即可退出程序

  6. 将图片写入word文档,因为影刀中列表的排序是要等字节的才能判断,所以代码中将图片的名字和对应路径,分别构造成字典的键和值,再循环1到最大值,依次取出字典的对应值,插入word文档中,这样就不会乱序

4 执行结果图

在这里插入图片描述

5 完整程序

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/1381374.html

相关文章

阿里又又发布了一个“AI神器”

阿里给“打工”朋友送上“节日礼物” 六一儿童节当天,阿里就给所有“打工”的大朋友送上了一份“节日礼物” 6月1日上午,阿里云发布了面向音视频内容的AI新品“通义听悟”,并正式公测 通义千问、通义听悟 这哥俩现在所处环境不同&#xff0…

朴素贝叶斯算法基础——案例:对新闻进行分类

贝叶斯公式 朴素:假设特征与特征之间相互独立 朴素贝叶斯算法:朴素贝叶斯 应用场景:文本分类(单词作为特征) 拉普拉斯平滑系数 Ni:F1词在C类别所有文档中出现的次数 N:所属类别C下的文档所…

Android中ANR机制

Android中的ANR分为两种,前台ANR和后台ANR。 前台ANR,是指ANR时对用户可感知,比如拥有当前前台可见的activity的进程,或者拥有前台通知的fg-service的进程,这些是用户可感知的场景。前台ANR,会出现一个系统…

网络流量监控软件AnaTraf:优化性能、排除故障的最佳选择

目录 导言 网络流量监控的重要性 AnaTraf网络万用表的功能与优势 网络故障排除与优化网络性能 结论 导言 在当今数字化时代,计算机网络已经成为企业和组织的核心基础设施。然而,网络流量的管理和监控对于确保网络性能的稳定和优化至关重要。本文将介…

SpringBoot实战项目——博客笔记项目

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、项目介绍二、项目的整体框架 2.1 数据库模块 2.2 前端模块 2.3 后端模块三、项目图片展示四、项目的实现 4.1 准备工作 4.…

python 蓝桥杯之动态规划入门

文章目录 DFS滑行(DFS 记忆搜索) 思路: 要思考回溯怎么写(入参与返回值、递归到哪里,递归的边界和入口) DFS 滑行(DFS 记忆搜索) 代码分析: 学会将输入的数据用二维列表…

Redis缓存问题详解和处理

缓存更新策略 缓存穿透 缓存穿透是指客户端请求的数据在缓存中和数据库中都不存在,这样缓存永远不会生效,这些请求都会打到数据库. 常见的解决方案: 缓存空对象 优点: 实现简单, 维护方便缺点: 额外的内存消耗, 可能造成短期的不一致 布隆过滤 优点: 内存占用较少(保存的是数据…

c#简易学生管理系统

https://pan.baidu.com/s/1kCPvWg8P5hvlf26nGf2vxg?pwdya45 ya45