spiderflow的初步使用

news/2025/1/12 22:51:25/

1、简介

spider-flow 是一个爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫

官网地址:https://www.spiderflow.org/

2、spiderflow的初步使用

2.1拉取,配置和启动

从gitee上拉取

执行db里面的sql

里面会有6张表

修改配置文件里面的数据库连接的账号密码和地址

修改配置文件里面的开启定时任务,设置为true时定时任务才生效

spider.job.enable=true

直接启动,访问端口号即可,启动成功

2.2参照实例写一个爬虫

2.2.1爬取站点分析

https://www.piaohua.com/html/dongzuo/

这是一个电影网站

我想爬取的是电影名称,类别,产地等信息

首先查看网页源代码,看获取的信息是否能从网页中拿到,有的是js动态加载的不能直接获取

这种可以直接获取

然后试着分析页码,点不同页码的时候连接会发生变化,点第四页,数字就变成了4

然后确定要爬取的信息

2.2.2开始写爬虫

2.2.2.1新建爬虫

2.2.2.2配置爬虫url

在url中使用${}来放动态参数,类似jquery。(参考官网表达式语法--基本用法--动态拼接url)

2.2.2.3配置页码和拉取信息

三元运算符和java中的一样(参考官网表达式语法--三元运算符)

获取页面内容 获取页面中class='col-md-6'的所有内容(参考官网 函数说明--抽取函数--selectors)

2.2.2.4 遍历

上面的movieList是一个集合,遍历这个集合

参考官网(快速入门--循环节点),list.length是获取集合的长度,参考官网(函数说明--list--length)

2.2.2.5设置翻页条件

当页码<=10的时候继续爬取

流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转

参考官网(快速入门--连接线)

2.2.2.6 定义变量

2.2.2.7输出节点

2.2.2.8测试

点击左上角的测试即可看到输出内容

2.2.2.9输出到数据库

1.在输出节点选中输出到数据库

2.添加数据源

3.输出字段和数据库字段保持一致即可


http://www.ppmy.cn/news/293644.html

相关文章

需求调研方法

目录 一、什么是需求调研? 二、需求调研的意义? 三、需求调研的方法

C语言字符及字符串讲解

文章目录 前言一、字符介绍和使用二、字符串介绍和使用三、字符串操作函数四、字符串的长度和字符串所占内存空间的大小总结 前言 C 语言中的字符和字符串是常用的数据类型。字符是一个单个的字母、数字、标点符号或者其他可打印的符号&#xff0c;使用单引号 ’ ’ 表示&…

从零手写操作系统之RVOS系统调用实现-09

从零手写操作系统之RVOS系统调用实现-09 系统模式&#xff1a;用户态和内核态如何让任务运行在用户态下 系统模式的切换用户模式下访问特权指令测试系统调用系统调用执行流程系统调用传参规范系统调用封装 系统调用完整流程解析执行测试 本系列参考: 学习开发一个RISC-V上的操作…

Jetpack Compose:使用PagerIndicator和Infinity实现滚动的HorizontalPager

Jetpack Compose&#xff1a;使用PagerIndicator和Infinity实现滚动的HorizontalPager 可能你已经知道&#xff0c;Jetpack Compose 默认不包含内置的ViewPager组件。然而&#xff0c;我们可以通过在 build.gradle 文件中添加 accompanist 库依赖&#xff0c;将 ViewPager 功能…

【JavaEE】网络编程之TCP套接字

目录 1、TCP套接字 1.1、ServerSocket 常用API 1.2、Socket 常用API 2、基于TCP套接字实现一个TCP回显服务器 2.1、服务器端代码 2.2、客户端代码 2.3、解决服务器不能同时和多个客户端建立链接的问题 3、基于TCP socket 写一个简单的单词翻译服务器 1、TCP套接字 T…

浅谈 UUID 生成原理及优缺点

UUID 是一套用于生成全局唯一标识符的标准&#xff0c;也被称为 GUID &#xff08;Globally Unique Identifier&#xff09;&#xff0c;通过使用 UUID 可以在分布式系统中生成唯一的 ID。UUID 的生成方式有多种&#xff0c;本文将详细讲解 UUID 的生成原理、特性、实用场景以及…

Android壳程序实现方式对比

vs. 原生开发、纯H5&#xff08;依赖浏览器&#xff09;、浏览器壳程序&#xff08;混合应用的方式&#xff09; 本篇指的是最后一种 Android手机壳程序&#xff0c;用系统WebView 和 内嵌Chromium 实现方式的对比使用系统WebView内嵌ChromiumFirefox的引擎 - GeckoView 组件说…

联发科MT76x8使用1-芯片对比

上面是我创建的群聊&#xff0c;欢迎新朋友的加入。 最近新到手一个MT-76X8的板子&#xff0c;盖了个铁壳壳&#xff0c;丝印上写的是MT-7628. 学习一下。 特意对比了MT-7628和MT-7688 对比了一下&#xff0c;没什么太大区别 官方资源路径 https://docs.labs.mediatek.com…