爬虫的流程

devtools/2024/9/25 8:55:19/

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取


http://www.ppmy.cn/devtools/116882.html

相关文章

实验室ICPR 2024论文分享┆FPMT: 基于增强型半监督模型的交通事件检测(含详细视频解读)

目录 论文分享简介 1. 会议介绍 2. 研究背景及主要贡献 3. 方法 4. 实验 5. 结论 6. 论文介绍视频 论文分享简介 本推文详细介绍了一篇实验室的最新论文成果《FPMT: Enhanced Semi-Supervised Model for Traffic Incident Detection》,该论文已被第27届国际…

程序设计中,day 与 date 这2个单词的区别

先看下面几个例句感受一下: What day is it today? - Its Firday. Whats the date today? - Its September 10th, Teachers Day. It takes me 5 days to read the book. 在不同的编程语言或数据库中,"day" 和 "dat…

python网站创建001:内容概览

内容概览: 1. Python环境搭建(Python解释器、Pycharm、环境变量等) 2. 基础语法(条件、循环、输入输出、编码等) 3. 数据类型型(整型、布尔型、字符串、列表、字典、元组、集合等) 4. 函数&…

机器学习与深度学习

目录 机器学习深度学习机器学习和深度学习有哪些维度的不同? 机器学习 首先简要介绍下机器学习(Machine Learning)的基本概念。主要介绍机器学习算法的应用,监督学习和无监督学习(supervised-unsupervised learning&a…

【ShuQiHere】 深入理解队列的实现方式:数组、链表与循环队列的全面解析

🎓 【ShuQiHere】 🌟 在计算机科学中,队列(Queue) 是一种常见的数据结构,它遵循**先进先出(FIFO, First In First Out)**的原则。无论是任务调度、消息队列、或是操作系统中的任务管…

高等数学大纲

一、函数与极限 函数的概念 函数的定义函数的性质(单调性、奇偶性、周期性)初等函数(代数函数、三角函数、指数函数、对数函数) 极限 极限的定义极限的性质无穷小与无穷大夹挤定理左右极限与极限的存在性 二、连续性 连续函数的定…

【计算机网络 - 基础问题】每日 3 题(二十)

✍个人博客:Pandaconda-CSDN博客 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞👍收藏&…

MyBatis—Plus 快速上手【后端 22】

MyBatis-Plus 使用入门指南 前言 在Java的持久层框架中,MyBatis因其灵活性和易用性而广受欢迎。然而,随着项目规模的扩大,MyBatis的一些重复性工作(如CRUD操作)开始显得繁琐。为了解决这一问题,MyBatis-Pl…