认识爬虫技术

news/2024/9/19 4:50:23/ 标签: 爬虫

爬虫目的

网络爬虫，主要目的是代替人工收集网络数据。

应用场景主要包括两个方面：

只要满足以上两个应用场景，其实都可以考虑使用爬虫技术降低人工成本。

爬虫的本质，就是模拟人的操作，把网页下载下来，然后通过网页内容找到目标数据。

主要可以分为两个步骤：

第 2 步的操作，就是从已有的网页文本内容中，找到目标目标数据。

这个相对而言，是比较简单的，利用正则匹配或者是 HTML DOM 结构解析查询都能够比较容易实现目的。

但一般提到的爬虫技术，其实是针对如何下载目标网页的技术。

没经验的朋友可能觉得下载网页很简单，直接一个 GET 域名请求，就可以拿到网页数据。

本质上确实就是这么简单，但复杂点在于：

几乎每一个有内容、数据的网站，都会有一套自己的反爬虫策略。

所以，在有爬取目标的情况下，我们就需要具体测试出来的这个网站的反爬虫策略。

这个 测试、验证、解决反爬虫机制的过程，其实就是所谓的爬虫技术。

常见的反爬虫策略主要有以下 6 个方向的考虑：

定期更改页面结构
- 反爬虫策略：通过定期更改网站的页面结构、标签、关键数据对应的标签属性，这样可以使爬虫难以长期有效地抓取网站。
- 爬虫策略：这种方式基本无解，爬虫必须跟随目标网站重新适配爬虫的页面解析逻辑。
动态加载内容
- 反爬虫策略：使用 JavaScript 动态加载内容，使静态爬虫无法抓取到完整的页面信息。
- 爬虫策略：使用 JavaScript 去触发动态加载内容或者用类似于 Python 的 Selenium 模拟人的操作。

数据加密
- 反爬虫策略：将关键数据进行加密，增加爬虫解析的难度。
- 爬虫策略：如果要爬取的数据是加密后的结果，除非是知道解密方式和密钥，否则没办法。
图片化关键信息
- 发爬虫策略：将一些关键信息（如价格，电话号码等）转化为图片，这样可以防止简单的文本爬虫抓取这些信息。
- 爬虫策略：通过 OCR 等技术识别出来图片信息。

链接混淆
- 反爬虫策略：对网站内的链接进行混淆，使得爬虫难以识别和跟踪链接。
- 爬虫策略：这种情况只能观察已有混淆的链接和网站真实链接有什么样的关系，进行猜测和验证。
使用JavaScript生成链接
- 反爬虫策略：使用 JavaScript 动态生成链接，可以防止静态爬虫抓取链接。
- 爬虫策略：使用 JavaScript 去触发动态加载内容或者用类似于 Python 的 Selenium 模拟人的操作加载出来对应的链接信息。

验证码验证：
- 反爬虫策略：在关键页面增加验证码验证，可以有效防止自动化的爬虫访问。
- 爬虫策略：简单文字字母验证码可以通过 OCR，但复杂验证码基本无解。
行为检测：
- 反爬虫策略：通过检测用户行为（如鼠标移动，点击等）来识别和阻止自动化的爬虫。
- 爬虫策略：这种可以通过类似于 Python 的 Selenium 模拟人的操作解决。

访问请求头检查：
- 反爬虫策略：检查 HTTP 请求的 User-Agent、Cookie、及其他请求头信息的有效性。
- 爬虫策略：模拟或直接使用网站网络请求的 UA 、Cookie 及请求头信息。
访问频率限制：
- 反爬虫策略：通过限制单一 IP 或用户的访问频率，可以防止爬虫的大量访问。
- 爬虫策略：用动态的代理 IP 解决单一 IP 问题。
用户代理检测：
- 反爬虫策略：检测和限制使用已知的爬虫用户代理的访问。
- 爬虫策略：用更多的动态代理 IP，遇到被禁的 IP 直接再换一个。

法律法规
- 反爬虫策略：清楚标示网站的使用条款，明确禁止非法爬虫的行为。
- 爬虫策略：不要公开使用和展示，仅限于方便自家数据的流转和使用。
维权行动：
- 反爬虫策略：在检测到非法爬虫时，可以考虑通过法律手段来保护网站的数据和资源。
- 爬虫策略：如果被人发律师函，被举报，则自求多福~