开源项目推荐【SkyEyeSystem】

news/2024/11/17 0:31:59/

大家好，今天向大家推荐一个开源项目——SkyEyeSystem。

这是一个基于Spring Boot的全网热点爬虫项目，旨在提供全面而准确的全网热搜数据。

关于项目

SkyEyeSystem通过定时任务间隔10min爬取全网热搜数据。目前包括的平台有：

微博热搜
B站热搜
CSDN热搜
知乎热搜
今日头条
百度热搜
掘金
36氪
腾讯新闻
少数派等。

在获取到数据后

SkyEyeSystem会将原始数据存入MySQL

进行词频统计后存入Redis，

以便开发者们能够更方便地分析和利用这些热搜数据。

同时会以页面的形式展示出所有平台的数据。

页面

自定义爬虫平台

当然也可以自定义自己希望爬取的平台，作者提供了非常清晰的教程，只需要提供对应的平台类，自定义处理爬虫逻辑即可。

首先在平台表 hot_platform 中新增对应对平台记录。举例如下。

INSERT INTO sky_eye_system.hot_platform 
VALUES (2, '微博','https://ts3.cn.mm.bing.net/th?id=ODLS.05d45f55-2151-4d66-83e5-d10018607094&w=32&h=32&qlt=90&pcl=fffffa&o=6&pid=1.2','随时随地发现新鲜事！微博带你欣赏世界上每一个精彩瞬间，了解每一个幕后故事。分享你想表达的，让全世界都能听到你的心声！','https://weibo.com', '随时随地发现新鲜事！', '王志东', null, null, 0);

在 [src/main/java/cn/shoxiongdu/SkyEyeSystem/task/hotspot/crawl/impl] 下新增对应的平台类，并实现接口 HotDataCrawler

public class XXXCrawler implements HotDataCrawler {// 平台表中的id private static final Long PLATFORM_ID = ${platformId};private PlatformMapper platformMapper;@Overridepublic List<HotSpot> crawlHotSpotData() {// 执行自定义爬虫逻辑 返回的HotSpot列表。return hotSpotList;}@Overridepublic Platform getPlatform() {return platformMapper.selectById(PLATFORM_ID);}
}