影刀RPA实战:数据采集-IT数据书栈网

news/2024/11/15 0:34:24/

1.实战目标

本次实战主要是采集书栈网上的学习书籍,我们打开网址,输入想要学习的IT知识,影刀机器人会自动将数据名称,链接地址,文档数量,收藏人次,阅读人次,及书籍介绍拉取下来,保存到excel中,你可以创建不同的IT学习数据表格,采集后保存起来,学习或用到的时候,我们就可以点击链接查看了,不用在百度等搜索引擎上去做繁琐的搜索查找工作了。

2.书栈网介绍

书栈网是一个为程序员和IT专业人士提供免费开源编程书籍阅读的平台,它涵盖了前端、后端、数据库、算法、数据分析等多个技术领域。用户可以在书栈网上找到最新和最热门的开源书籍以及相关的文档资料。书栈网提供了网页版和手机APP,方便用户在不同设备上阅读学习。

对于编程伙伴来说,书栈网的作用主要体现在以下几个方面:

  • 资源丰富:提供大量的编程和IT技术书籍,满足不同技术爱好者和专业人士的学习需求。
  • 免费阅读:所有书籍都是免费提供,降低了学习成本,使得更多人能够获取知识。
  • 便捷性:通过网页版和手机APP,用户可以随时随地进行学习和阅读。
  • 搜索功能:书栈网提供强大的搜索功能,用户可以通过关键词快速找到所需的书籍或文档。
  • 开源精神:书栈网的APP `BookChat` 是基于 Apache 2.0 开源协议开源的,体现了开源社区的精神,用户可以参与到APP的开发和改进中。

此外,书栈网还提供了一些辅助功能,如书架、书签、阅读偏好设置等,以增强用户的阅读体验。它的UI设计简洁美观,提供了清爽的阅读体验。书栈网的APP `BookChat` 采用混合开发方式,性能和体验接近原生应用,且完全开源,源代码可以在GitHub和Gitee上找到。

如果你是一名编程伙伴,书栈网可以成为你学习和提升技能的宝贵资源。你可以通过访问书栈网的官网  或下载其手机APP来开始你的学习之旅。
 

3.影刀实战采集书栈网IT书籍数据

书栈网首页:www.bookstack.cn

3.1 使用影刀打开书栈网

3.2 输入搜索内容

书栈网主页打开后,会弹出一个输入框,我们输入学习的内容,比如java,直接确定,就跳转至java相关的数据列表页面了

3.3 爬取数据相关数据

本次爬取数据的知识点:

数据抓取:这是影刀为我们方便抓取网页数据设计一个功能,他能快速的定位页面元素,可视化展示你抓取的内容,同时也可以对抓取的内容进行处理,比如,抓取的内容包含链接,我们可以直接提取,他会自动生成一列数据,补在其后,方便我们不用二次抓取。

同时,数据抓取的功能,也可以结合页码实现多页抓取,不需要我们写一个循环来实现,我们只需要将页码数量及下一页的页面元素告诉影刀,他会自动帮我们处理,实现分页抓取。

我们看具体的代码:

进入搜索后的知识列表页面

我们先获取总页码,以便全部抓取

设置批量数据抓取,将下一页的点击元素与总页码赋值给影刀,抓取的数据会保存在一个多维列表中,他符合直接写入excel的特点

3.4 写入数据表格

将抓取的保存在知识列表的数据写入excel

到此,一个采集学习知识的机器人工具就完成了,你可以在你的电脑上设置学习的知识结构了,然后使用影刀来采集数据,丰富的知识文档库,便于学习与工作查询。

4.最后

感谢大家,请大家多多支持。


http://www.ppmy.cn/news/1527477.html

相关文章

xml中SQL执行错误(使用另外一张表的两个字段,组装SQL的where查询条件)

SQL实现功能描述&#xff1a;根据系统设置中的商店到期提醒周期、单位&#xff0c;在过期提醒的列表中&#xff0c;对数据进行周期展示 错误复现&#xff1a; Mapper接口中抽象方法的定义如下&#xff1a; Page<ShopVo> queryList(Param(“vo”) ShopVo shopVo ,Page&…

Jacoco的XML报告详解

使用jacococli完成jacoco测试报告生成后,会看到有一个.xml结尾的文件,这个就是xml格式的覆盖率报告。除了xml还有csv、html格式的报告,本文进介绍xml报告。 DTD文件 在介绍jacoco的xml报告之前,我们应该先看一下对应的DTD文件的内容。(DTD的全称为Document Type Definitio…

【Go - 类型断言】

前提重点&#xff1a;类型断言&#xff0c;先转换 &#xff0c;再断言(判断是否转换成功) Go语言中&#xff0c;类型断言用于将接口类型的变量转换为具体类型。类型断言的语法如下&#xff1a; value, ok : interfaceVariable.(ConcreteType)interfaceVariable 是一个接口类型…

nodejs+express+vue教辅课程辅助教学系统 43x2u前后端分离项目

目录 技术栈具体实现截图系统设计思路技术可行性nodejs类核心代码部分展示可行性论证研究方法解决的思路Express框架介绍源码获取/联系我 技术栈 该系统将采用B/S结构模式&#xff0c;开发软件有很多种可以用&#xff0c;本次开发用到的软件是vscode&#xff0c;用到的数据库是…

【车载开发系列】ParaSoft单元测试环境配置(三)

【车载开发系列】ParaSoft单元测试环境配置(三) 【车载开发系列】ParaSoft单元测试环境配置(三) 【车载开发系列】ParaSoft单元测试环境配置(三)一. 去插桩设置Step1:静态解析代码Step2:编辑Parasoft文件Step3:确认去插桩二. 新增测试用例Step1:生成测试用例Step2:执…

【git系列】git中的那些迷惑的术语以及概念详解

引子 连着写了几篇关于git的文章&#xff0c;满满对git有了更深入的了解。但是git里面还是有很多术语让人困惑。下面我逐一解释下。 当我们把它们搞清楚后就发现&#xff0c;没那么难懂&#xff0c;心里作用占了很大一部分。 事实是&#xff1a; 1&#xff09;“索引”、“…

WSL中使用AMBER GPU串行版

前提是已经安装过wsl 1 在 WSL 2 中启用 NVIDIA CUDA 参考在 WSL 2 上启用 NVIDIA CUDA | Microsoft Learn 注意&#xff1a;勿在 WSL 中安装任何 Linux 显示驱动程序。Windows 显示驱动程序将同时安装本机 Windows 和 WSL 支持的常规驱动程序组件。 2 在WSL2中配置Cuda 不安…

Ubuntu 中无法直接使用 `conda` 命令,设置conda的环境变量

您好&#xff0c;您在 Ubuntu 中无法直接使用 conda 命令&#xff0c;是因为 conda 的可执行文件没有添加到您的环境变量 PATH 中。您可以通过以下方法解决&#xff1a; 方法一&#xff1a;使用 conda init 初始化 运行初始化命令&#xff1a; /home/sunyuhua/miniconda3/bin/…