网络爬虫调研报告

ops/2024/10/18 8:23:33/

基本原理

Spider概述 

Spider即网络爬虫 ,其定义有广义和狭义之分。狭义上指遵循标准的 http协议利用超链接和 Web文档检索的方法遍历万维网信息空间的软件程序 ;而广义的定义则是所有能遵循 http协议检索 Web文档的软件都称之为网络爬虫 

Spider是一个功能很强的自动提取网页的程序 ,它为搜索引擎从万维网上下载网页 ,是搜索引擎的重要组成 .它经过请求站点上的 HTML文档访问某一站点。它遍历 Web空间 ,不断从一个站点移动到另一个站点 ,自动建立索引 ,并加入到网页数据库中。网络爬虫进入某个超级文本时 ,它利用 HTML语言的标记结构来搜索信息及获取指向其它超级文本的 URL地址 ,能够完全不依赖用户干预实现网络上的自动爬行和搜索。 

Spider的队列 

( 1) 等待队列 :新发现的 URL被加入到这个队列 ,等待被 Spider程序处理 ;

( 2) 处理队列 :要被处理的 URL被传送到这个队列。为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 ) 

( 3) 错误队列 :如果在下载网页是发生错误 , URL将被加入 到错误队列。

( 4) 完成队列 :如果在处理网页没有发生错误 , URL将被加入到完成队列。 

网络爬虫搜索策略

在抓取网页的时候 ,当前网络爬虫一般有两种策略 :无主题搜索与基于某特定主体的专业智能搜索。其中前者主要包括 :广度优先和深度优先。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页 ,然后再选择其中的一个链接网页 ,继续抓取在此网页中链接的所有网页。这是最常见的方式,因为这个方法能够让网络爬虫并行处理 ,提高其抓取速度。深度优先是指网络爬虫会从起始页开始 ,一个链接一个链接跟踪下去 ,处理完这条线路之后再转入下一个起始页 ,继续跟踪链接。这个方法有个优点是网络爬虫在设计的时候比较容易。大多数网页爬行器采用宽度优先搜索策略或者是对这种策略的某些改进。

在专业搜索引擎中 ,网络爬虫的任务是获取 Web页面和决定链接的访问顺序 ,它一般从一个 ”种子集 (如用户查询、 种子链接或种子页面 ),以迭代的方式访问页面和提取链接。搜索过程中 ,未访问的链接被暂存在一个称为 ”搜索前沿 (Spider Frontier)的队列中 ,网络爬虫根据搜索前沿中链接的 ”重要程度 ”决定下一个要访问的链接。如何评价和预测链接的 ”重要程度 (或称价值 )是决定网络爬虫搜索策略的关键。

众多的网络爬虫设计各不相同 ,但归根结底是采用不同的链接价值评价标准。

常见开源网络爬虫介绍及其比较

Nutch

开发语言: Java

简介:

Apache的子项目之一, 属于Lucene项目下的子项目。

Nutch是一个基于Lucene, 类似Google的完整网络搜索引擎解决方案, 基于Hadoop的分布式处理模型保证了系统的性能, 类似Eclipse的插件机制保证了系统的可客户化, 而且很容易集成到自己的应用之中。 

 

Larbin

开发语言: C++

简介

larbin是一种开源的网络爬虫/网络蜘蛛, 由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取, 最后为搜索引擎提供广泛的数据来源。

Larbin只是一个爬虫, 也就是说larbin只抓取网页, 至于如何parse的事情则由用户自己完成。另外, 如何存储到数据库以及建立索引的事情 larbin也不提供。

latbin最初的设计也是依据设计简单可是高度可配置性的原则, 因此我们能够看到, 一个简单的larbin爬虫能够每天获取500万的网页, 非常高效。

 

Heritrix

开发语言: Java

简介

Nutch比较

      Heritrix  Nutch。二者均为Java开源框架, Heritrix  SourceForge上的开源产品, NutchApache的一个子项目, 它们都称作网络爬虫/蜘蛛(  Web Crawler) , 它们实现的原理基本一致: 深度遍历网站的资源, 将这些资源抓取到本地, 使用的方法都是分析网站每一个有效的URI, 并提交Http请求, 从而获得相应结果, 生成本地文件及相应的日志信息等。

  Heritrix 是个 "archival crawler" -- 用来获取完整的、 精确的、 站点内容的深度复制。包括获取图像以及其它非文本内容。抓取并存储相关的内容。对内容来者不拒, 不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫经过Web用户界面启动、 监控、 调整, 允许弹性的定义要获取的URL

二者的差异:

Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌 

Nutch 能够修剪内容, 或者对内容格式进行转换。 

Nutch 保存内容为数据库优化格式便于以后索引; 刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。 

Nutch 从命令行运行、 控制。Heritrix  Web 控制管理界面。 

Nutch 的定制能力不够强, 不过现在已经有了一定改进。Heritrix 可控制的参数更多。

Heritrix提供的功能没有nutch多, 有点整站下载的味道。既没有索引又没有解析, 甚至对于重复爬取URL都处理不是很好。


http://www.ppmy.cn/ops/104812.html

相关文章

ArrayList 和 LinkedList 之间的主要区别。在什么情况下你会选择使用 ArrayList 而不是 LinkedList,反之亦然?

ArrayList 与 LinkedList 的主要区别 在 Java 中,ArrayList 和 LinkedList 是两种常用的集合类,它们都是 List 接口的实现。尽管它们都可以存储一系列元素,但它们在内部实现上有着显著的不同,这也决定了它们在性能上的差异。 Ar…

缓存使用-缓存击穿、穿透、雪崩概念

一、缓存穿透 指查询一个不存在的数据、由于缓存不命中,将查询数据库,但是数据库也无此记录,我们没有将null写入缓存,这将导致这个不存在数据每次请求都会查询数据库,导致缓存失去意义。 风险: 利用不存在…

源代码编译,Apache DolphinScheduler前后端分离部署解决方案

转载自神龙大侠 生产环境部署方案 在企业线上生产环境中,普遍的做法是至少实施两套环境。 测试环境线上环境 测试环境用于验证代码的正确性,当测试环境验证ok后才会部署线上环境。 鉴于CI/CD应用的普遍性,源代码一键部署是必要的。 本文…

CTFHub SSRF靶场通关攻略

内网访问 首先进入环境 在url后面输入 http://127.0.0.1/flag.php访问,得出flag 伪协议读取文件 进入环境后再url后面拼接 file:///var/www/html/flag.php 访问后是???,那么我们F12检查源码得出flag 端口扫描 我们进行…

自己开发完整项目一、登录功能-05(动态权限控制)

一、上节回顾 在上一节中,我们介绍了如何通过数据库查询用户的权限,并对方法级别的接口使用注解的方式进行权限控制,之后通过用户携带的tocken进行解析权限,判断是否可以访问。 具体步骤: 1.在查询用户信息的时候将用户…

24数学建模国赛及提供助力(12——存贮论)!!!!

需要资料和助攻的小伙伴们可以文章末尾获取链接!!!! 点击链接加入群聊获取资料以及助攻https://qm.qq.com/q/NGl6WD0Bky

【Mysql】基于Docker的MySQL 8.0安装配置教程

一、前言 本文将详细介绍如何在Docker环境下安装、配置MySQL 8.0版本,包括端口映射、数据文件挂载、初始化账号密码以及配置文件的映射。通过本教程,您将能够轻松地在您的服务器上搭建一个高效、可管理的MySQL数据库环境。 二、准备工作 在开始安装配…

51单片机-独立按键控制LED显示二进制

时间&#xff1a;2024.8.29 作者&#xff1a;Whappy 目的&#xff1a;学习51单片机 代码&#xff1a; #include <REGX52.H> #include "intrins.h"void Delay1ms(unsigned int xms) //11.0592MHz {unsigned char i, j;while(xms--){_nop_();i 2;j 199;do{…