爬虫基础(六)代理简述

embedded/2025/2/4 11:23:57/

目录

一、什么是代理

二、基本原理

三、代理分类


一、什么是代理

爬虫一般是自动化的,当我们自动运行时

爬虫自动抓取数据,但一会就出现了错误:

如,您的访问频率过高

这是因为网站的反爬措施,如果频繁访问,则会被禁止,即封IP

为解决这种情况,我们需要把自己的IP伪装一下,即代理

所谓代理,就是代理服务器。

二、基本原理

正常来说:

客户发送请求给服务器

然后服务器将响应传给客户

而代理的话:

相当于在客户和服务器之间加一个代理服务器

就成了客户发送请求给代理服务器

代理服务器将请求传给服务器

服务器将响应传给代理服务器

代理服务器再传给客户

而使用代理服务器,则可以隐藏真实IP

我们只需要不断更换IP即可

三、代理分类

根据协议分类

  1. HTTP代理

    • 仅支持HTTP协议,适用于网页浏览。

    • 通常用于访问受限网站或匿名浏览。

  2. HTTPS代理

    • 支持HTTPS协议,提供加密传输,安全性更高。

    • 适用于需要加密的网页访问。

  3. SOCKS代理

    • 支持多种协议(如HTTP、FTP),灵活性高。

    • 常用于P2P文件共享或绕过防火墙。

  4. FTP代理

    • 专用于FTP协议,用于文件传输。

    • 适用于需要匿名上传或下载文件的场景。

  5. SSL/TLS代理

    • 支持SSL/TLS加密,安全性强。

    • 适用于需要高安全性的数据传输。

根据匿名程度分类

  1. 透明代理(Transparent Proxy)

    • 不隐藏用户IP,服务器知道请求经过代理。

    • 常用于内容过滤或缓存。

  2. 普通匿名代理(Anonymous Proxy)

    • 隐藏用户IP,但服务器知道请求来自代理。

    • 提供一定匿名性,但无法完全隐藏代理身份。

  3. 高匿名代理(Elite Proxy)

    • 完全隐藏用户IP和代理信息,服务器无法识别请求是否通过代理。

    • 提供最高匿名性,适用于高隐私需求。


http://www.ppmy.cn/embedded/159456.html

相关文章

【Elasticsearch】硬件资源优化

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

33.Word:国家中长期人才发展规划纲要【33】

目录 NO1.2样式​ NO3​ 图表 ​ NO4.5.6​ 开始→段落标记视图→导航窗格→检查有无遗漏 NO1.2样式 F12/另存为:Word.docx:考生文件夹样式的复制样式的修改 样式的应用(没有相似/超级多的情况下)——替换 [ ]通配符&#x…

安装及使用Tomcat

1.下载(自己选择版本,也可自行官网下载)官网为:Apache Tomcat - Welcome! 通过网盘分享的文件:Tomcat安装 链接: https://pan.baidu.com/s/188BVZBJvg1ml2916AyPElQ?pwd2xhe 提取码: 2xhe --来自百度网盘超级会员v3的分享 2.配置系统变量,添加如下变量,指向已有的…

Zabbix 推送告警 消息模板 美化(钉钉Webhook机器人、邮件)

目前网络上已经有很多关于Zabbix如何推送告警信息到钉钉机器人、到邮件等文章。 但是在搜索下来,发现缺少了对告警信息的美化的文章。 本文不赘述如何对Zabbix对接钉钉、对接邮件,仅介绍我采用的美化消息模板的内容。 活用AI工具可以减轻很多学习、脑力负…

【Java源码】基于SpringBoot+小程序的电影购票选座系统

1项目介绍 本课程演示的是一款基于SpringBoot微信小程序的电影购票选座系统,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 带你从零开始部署运行本套系统 …

数据结构之栈和队列(超详解)

文章目录 概念与结构栈队列 代码实现栈栈是否为空,取栈顶数据、栈的有效个数 队列入队列出队列队列判空,取队头、队尾数据,队列的有效个数 算法题解有效的括号用队列实现栈用栈实现队列复用 设计循环队列数组结构实现循环队列构造、销毁循环队…

Spark On Yarn External Shuffle Service

个人博客地址:Spark On Yarn External Shuffle Service | 一张假钞的真实世界 本文基于spark-3.1.2-bin-without-hadoop.tgz版本,所以spark-3.1.2-yarn-shuffle.jar已经在节点的${SPARK_HOME}/yarn目录下。 HADOOP_CLASSPATH 在所有NodeManager节点上…

el-table组件样式如何二次修改?

文章目录 前言一、去除全选框按钮样式二、表头颜色的修改 前言 ElementUI中的组件el-table表格组件提供了丰富的样式,有一个全选框的el-table组件,提供了全选框和多选。 一、去除全选框按钮样式 原本默认是有全选框的。假如有一些开发者,因…