故障自愈

2024/9/23 9:28:20

无人值守大数据平台(CDH6.3.2+Flink+海豚调度器)如何实现大数据平台稳定及顺利跑出离线报表和实时报表(持续更新方案)

目录 背景 一、影响因素 (一)硬件方面 服务器硬件故障 资源不足 (二)软件方面 大数据组件故障 源数据问题 二、解决方案 (一)硬件冗余与监控 硬件冗余 (二)软件容错 1.配置高可用和分布式 HDFS (Hadoop Distributed File System) 高可用性 2. YARN (Yet …

无人值守大数据平台(CDH6.3.2+Flink+海豚调度器)如何实现大数据平台稳定及顺利跑出离线报表和实时报表(持续更新方案)

目录 背景 一、影响因素 (一)硬件方面 服务器硬件故障 资源不足 (二)软件方面 大数据组件故障 源数据问题 二、解决方案 (一)硬件冗余与监控 硬件冗余 (二)软件容错 1.配置高可用和分布式 HDFS (Hadoop Distributed File System) 高可用性 2. YARN (Yet …

国家电网某地电力公司网络硬件综合监控运维项目

国家电网某地电力公司是国家电网有限公司的子公司,负责当地电网规划、建设、运营和供电服务,下属多家地市供电企业和检修公司、信息通信公司等业务支撑实施机构。 项目现状 随着公司信息化建设加速,其信息内网中存在大量物理服务器、存储设备…

StackStorm自动化平台

1. StackStorm概述 1.1 StackStorm介绍 StackStorm是一个开源的事件驱动自动化平台,它允许开发者和系统管理员自动化IT和网络操作。StackStorm结合了IT运维、DevOps和网络安全团队的需求,提供了一个集中式的工作流自动化解决方案,包括事件响…

国家电网某地电力公司网络硬件综合监控运维项目

国家电网某地电力公司是国家电网有限公司的子公司,负责当地电网规划、建设、运营和供电服务,下属多家地市供电企业和检修公司、信息通信公司等业务支撑实施机构。 项目现状 随着公司信息化建设加速,其信息内网中存在大量物理服务器、存储设备…

服务器监控运维方案,一体化智能观测服务器状态

随着信息技术发展,服务器已经成为支撑各类应用系统的核心基础设施。业务数量的日益增长和稳定运行的高要求,也给服务器的稳定性与可靠性建立了更高的标准。然而,传统的服务器管理方式往往难以发现潜在问题,导致故障预警与处置的滞…