爬虫的流程

embedded/2024/9/25 3:27:43/

爬虫的流程

  • 获取网页
  • 提取信息
  • 保存数据
  • 自动化程序
  • 能爬怎样的数据

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求——>返回的响应体便是网页源代码——>浏览器解析源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求——>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码——>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取


http://www.ppmy.cn/embedded/116419.html

相关文章

C/C++笔记

C/CPP笔记 杂记 struct msg_train和typedef struct msg_train 大小不一样 cstdio和stdio #include <stdio.h>int main() {printf("Hello, World!\n");return 0; } #include <cstdio>int main() {std::printf("Hello, World!\n");return 0; } 命…

@EnableScheduling 和 @Scheduled 实现定时任务的任务延期问题

前言 在复盘 ieg 一面看到定时任务阻塞的问题时&#xff0c;研究了下 EnableScheduling 的源码&#xff0c;觉得可以单开一篇文章讲一讲 本文主要讲述了使用 EnableScheduling 可能出现的线程阻塞导致定时任务延期的问题&#xff0c;也顺便解释了动态定时任务源码上的实现 引…

虎先锋,你也喜欢线程控制嘛

讲讲线程控制捏 线程创建 这是创建线程调用的接口&#xff1a; #include <pthread.h> int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *(*start_routine) (void *), void *arg); 这个接口上一篇文章已经介绍过了 线程等待 那么我们来看看…

前端面试题(一)

1. HTML 和 CSS 面试题 如何在 HTML 中嵌入 CSS&#xff1f; CSS 可以通过三种方式嵌入&#xff1a;外部样式表&#xff08;<link>标签&#xff09;&#xff0c;内部样式&#xff08;<style>标签&#xff09;&#xff0c;和行内样式&#xff08;通过元素的style属性…

【趣学Python算法100例】打鱼还是晒网

问题描述 中国有句俗语叫“三天打鱼两天晒网”。某人从1990年1月1日起便开始“三天打鱼两天晒网”&#xff0c;问这个人在以后的某一天中是“打鱼”还是“晒网”。 问题分析 根据题意可以将解题过程分为以下三步&#xff1a; 计算从1990年1月1日开始至指定日期共有多少天。…

【C语言】猜数字游戏

个人主页 &#xff1a; zxctscl 如有转载请先通知 文章目录 前言1. 随机数生成1.1 rand1.2 srand1.3 time1.4 设置随机数的范围 2. 猜数字游戏实现2.1 游戏菜单2.2 主函数部分2.3 game函数部分2.4 附代码2.5 优化代码 前言 前面学习的这些知识&#xff0c;我们就可以写一些稍微…

数据库性能优化之分表

markdown # 1 背景 在生产站点&#xff0c;我们发现 MySQL 任务表的数据超过了 1700 万行&#xff0c;占用了高达 23G 的空间&#xff0c;导致数据库性能急剧下降&#xff0c;并出现了大量的 504 错误。分析数据后发现&#xff0c;有两个客户疯狂地创建任务&#xff0c;其中一…

Python闭包与装饰日高级概念

在Python中&#xff0c;闭包&#xff08;Closure&#xff09;和装饰器&#xff08;Decorator&#xff09;是两个高级且强大的编程概念&#xff0c;它们在函数式编程和面向对象编程中扮演着重要角色。下面将详细讲解这两个概念。 一、闭包&#xff08;Closure&#xff09; 1. …