爬虫学习--1.前导知识

ops/2024/10/22 3:02:56/

初始爬虫

前言引入

随着大数据时代的来临,网络爬虫在互联网中的地位将越来越重要。互联网中的数据是海量的,如何自动高效地获取互联网中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题而生的。 我们感兴趣的信息分为不同的类型:如果只是做搜索引擎,那么感兴趣的信息就是互联网中尽可能多的高质量网页;如果要获取某一垂直领域的数据或者有明确的检索需求,那么感兴趣的信息就是根据我们的检索和需求所定位的这些信息,此时,需要过滤掉一些无用信息。前者我们称为通用网络爬虫,后者我们称为聚焦网络爬虫

什么是爬虫?

网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序,进行互联网信息的自动化检索。

  • 简单一句话就是代替人去模拟浏览器进行网页操作。

为什么需要爬虫

  • 为其他程序提供数据源 如搜索引擎(百度、Google等)、数据分析、大数据等等。

企业获取数据的方式?

  • 1.公司自有的数据

  • 2.第三方平台购买的数据 (百度指数、数据堂)

  • 3.爬虫爬取的数据

Python做爬虫的优势

  • PHP : 对多线程、异步支持不太好

  • Java : 代码量大,代码笨重

  • C/C++ : 代码量大,难以编写

  • Python : 支持模块多、代码简介、开发效率高 (scrapy框架)

爬虫的分类

  • 通用网络爬虫  例如 baidu google yahu

  • 聚焦网络爬虫: 根据既定的目标有选择的抓取某一特定主题内容

爬虫的合法性

爬虫作为一种计算机技术就决定了它的中立性,因此爬虫本身在法律上并不被禁止,但是利用爬虫技术获取数据这一行为是具有违法甚至是犯罪的风险的。

http与https协议概念

1.什么是协议?

网络协议是计算机之间为了实现网络通信而达成的一种“约定”或者”规则“,有了这种”约定“,不同厂商的生产设备,以及不同操作系统组成的计算机之间,就可以实现通信。

2.HTTP协议是什么?

HTTP协议是超文本传输协议的缩写,英文是Hyper Text Transfer Protocol。它是从WEB服务器传输超文本标记语言(HTML)到本地浏览器的传送协议。 设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。 HTPP有多个版本,目前广泛使用的是HTTP/1.1版本。有些网站运用的是http/2.0版本。

3.HTTP原理(了解)

HTTP是一个基于TCP/IP通信协议来传递数据的协议,传输的数据类型为HTML 文件,、图片文件, 查询结果等。 HTTP协议一般用于B/S架构(浏览器/服务器结构)。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。

4.HTTP特点(了解)
  1. http协议支持客户端/服务端模式,也是一种请求/响应模式的协议。

  2. 简单快速:客户向服务器请求服务时,只需传送请求方法和路径。请求方法常用的有GET、HEAD、POST。

  3. 灵活:HTTP允许传输任意类型的数据对象。传输的类型由Content-Type加以标记。

  4. 无连接:限制每次连接只处理一个请求。服务器处理完请求,并收到客户的应答后,即断开连接,但是却不利于客户端与服务器保持会话连接,为了弥补这种不足,产生了两项记录http状态的技术,一个叫做Cookie,一个叫做Session。

  5. 无状态:无状态是指协议对于事务处理没有记忆,后续处理需要前面的信息,则必须重传。

5.Http请求与响应(重点理解的)</

http://www.ppmy.cn/ops/27110.html

相关文章

electron 中的 ipcMain 介绍

在 Electron 应用中&#xff0c;ipcMain 是主进程中的一个模块&#xff0c;用于处理与渲染进程之间的进程间通信 (IPC, Inter-Process Communication)。Electron 应用程序通常分为两个主要的进程&#xff1a;主进程和渲染进程。主进程&#xff08;通常是 main.js 文件&#xff…

06 - 步骤 add constants

简介 Add Constants 步骤是用于在数据流中添加常量字段的步骤。它允许用户在数据流中插入一个或多个常量字段&#xff0c;并为这些字段指定固定的数值、字符串或其他类型的常量值。 使用 场景 我需要在数据清后&#xff0c;这个JSON 字符串有一个固定的行流数据。 1、拖拽…

Python基础12-爬虫抓取网页内容

在本文中&#xff0c;我们将学习如何使用 Python 的 requests 和 BeautifulSoup 库进行网页抓取。我们将从基本的网页请求开始&#xff0c;逐步扩展到更高级的主题&#xff0c;如处理分页、AJAX 请求、正则表达式和异步抓取。 1. 使用 requests 获取网页 要检索网页的内容&am…

MySQL数据库安装——zip压缩包形式

安装压缩包zip形式的 MySQL 8数据库 一 、先进入官网下载 https://dev.mysql.com/downloads/mysql/ 二、解压到某个文件夹 我解压到了D:\mysql\mysql8 下面 然后在这个文件夹下手动创建 my.ini 文件和 data 文件夹 my.ini 内容如下&#xff1a; 注意 basedir 和 datadi…

全网萌萌可爱表情包大全,GIF动图与静态图表情包

一、素材描述 这是一套动静态表情包素材&#xff0c;来自全网搜集整理&#xff0c;可能是目前最全的了&#xff0c;共有大约17000款表情包&#xff0c;动态GIF表情包静态图片表情包。本套表情包素材&#xff0c;大小3.48G&#xff0c;1个压缩文件。 二、素材目录 &#xff0…

LibTorch入坑记

一、环境 win10 vs2022 cmake最新版 cuda 11.8 二、LibTorch下载 PyTorchhttps://pytorch.org/ 注意&#xff1a;我选择了preview版本。因为最新的MKL目前已经不兼容libtorch230了。 三、LibTorch使用 libtorch解压后如下图&#xff1a; 最核心的是include和lib这两个…

服务器数据恢复—服务器重装系统导致XFS分区丢失的数据恢复案例

服务器数据恢复环境&#xff1a; 一台服务器MD1200磁盘柜&#xff0c;通过raid卡将15块磁盘组建成一组raid5磁盘阵列。raid5阵列分配了2个lun&#xff0c;操作系统层面对lun进行分区&#xff1a;1个分区采用LVM扩容方式加入到了root_lv中&#xff0c;其余分区格式化为XFS文件系…

利用大型语言模型提升数字产品创新:提示,微调,检索增强生成和代理的应用

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…