1.实战目标
本次实战主要是采集书栈网上的学习书籍,我们打开网址,输入想要学习的IT知识,影刀机器人会自动将数据名称,链接地址,文档数量,收藏人次,阅读人次,及书籍介绍拉取下来,保存到excel中,你可以创建不同的IT学习数据表格,采集后保存起来,学习或用到的时候,我们就可以点击链接查看了,不用在百度等搜索引擎上去做繁琐的搜索查找工作了。
2.书栈网介绍
书栈网是一个为程序员和IT专业人士提供免费开源编程书籍阅读的平台,它涵盖了前端、后端、数据库、算法、数据分析等多个技术领域。用户可以在书栈网上找到最新和最热门的开源书籍以及相关的文档资料。书栈网提供了网页版和手机APP,方便用户在不同设备上阅读学习。
对于编程伙伴来说,书栈网的作用主要体现在以下几个方面:
- 资源丰富:提供大量的编程和IT技术书籍,满足不同技术爱好者和专业人士的学习需求。
- 免费阅读:所有书籍都是免费提供,降低了学习成本,使得更多人能够获取知识。
- 便捷性:通过网页版和手机APP,用户可以随时随地进行学习和阅读。
- 搜索功能:书栈网提供强大的搜索功能,用户可以通过关键词快速找到所需的书籍或文档。
- 开源精神:书栈网的APP `BookChat` 是基于 Apache 2.0 开源协议开源的,体现了开源社区的精神,用户可以参与到APP的开发和改进中。
此外,书栈网还提供了一些辅助功能,如书架、书签、阅读偏好设置等,以增强用户的阅读体验。它的UI设计简洁美观,提供了清爽的阅读体验。书栈网的APP `BookChat` 采用混合开发方式,性能和体验接近原生应用,且完全开源,源代码可以在GitHub和Gitee上找到。
如果你是一名编程伙伴,书栈网可以成为你学习和提升技能的宝贵资源。你可以通过访问书栈网的官网 或下载其手机APP来开始你的学习之旅。
3.影刀实战采集书栈网IT书籍数据
书栈网首页:www.bookstack.cn
3.1 使用影刀打开书栈网
3.2 输入搜索内容
书栈网主页打开后,会弹出一个输入框,我们输入学习的内容,比如java,直接确定,就跳转至java相关的数据列表页面了
3.3 爬取数据相关数据
本次爬取数据的知识点:
数据抓取:这是影刀为我们方便抓取网页数据设计一个功能,他能快速的定位页面元素,可视化展示你抓取的内容,同时也可以对抓取的内容进行处理,比如,抓取的内容包含链接,我们可以直接提取,他会自动生成一列数据,补在其后,方便我们不用二次抓取。
同时,数据抓取的功能,也可以结合页码实现多页抓取,不需要我们写一个循环来实现,我们只需要将页码数量及下一页的页面元素告诉影刀,他会自动帮我们处理,实现分页抓取。
我们看具体的代码:
进入搜索后的知识列表页面
我们先获取总页码,以便全部抓取
设置批量数据抓取,将下一页的点击元素与总页码赋值给影刀,抓取的数据会保存在一个多维列表中,他符合直接写入excel的特点
3.4 写入数据表格
将抓取的保存在知识列表的数据写入excel
到此,一个采集学习知识的机器人工具就完成了,你可以在你的电脑上设置学习的知识结构了,然后使用影刀来采集数据,丰富的知识文档库,便于学习与工作查询。
4.最后
感谢大家,请大家多多支持。