国家电网某地电力公司网络硬件综合监控运维项目

devtools/2024/9/23 11:21:20/

        国家电网某地电力公司是国家电网有限公司的子公司,负责当地电网规划、建设、运营和供电服务,下属多家地市供电企业和检修公司、信息通信公司等业务支撑实施机构。

项目现状

        随着公司信息化建设加速,其信息内网中存在大量物理服务器、存储设备、光纤交换机等设备,缺少监控设备细颗粒度部件状态的运维工具,无法满足实际运维需求。

设备类型:存储设备、服务器、光纤交换机、交换机等

设备品牌:华为、H3C、浪潮、惠普、IBM、中兴、联想、DELL、曙光、南瑞、神州鲲泰、超聚变、沃趣、长城超云、Brocade、MELLANOX、贝尔、锐捷等

设备数量:2000+台

项目期望:

  • 将网络内近200种不同品牌、不同型号、不同类型的设备统一、集中监控;
  • 提供详细的、粒度细设备监控指标库,支持监控的指标包括但不限于:CPU、内存、磁盘、网口、温度等;
  • 能够实时监控设备的运行数据,快速判断出硬件部件故障位置与级别,提供高效的故障排查和处理手段;
  • 解决设备产生的事件和日志信息格式多样、复杂不一致的问题,可以对其进行集中管理,并转化为清晰易于理解的告警信息;
  • 具有多种可供选择的告警通知方式,包括但不限于邮件、短信、微信等;
  • 解决目前主要依赖人工巡检,造成的巡检频度低,人力耗费大的问题;
  • 解决不同类型设备配置复杂和设备配置工作量大的问题,能够对设备的配置文件进行管理;
  • 能够与SG-I6000设备状态评价模块进行对接。

智和信通方案

        经过与用户一线运维工程师的深入交流,智和信通充分明确了其对监控运维平台的核心需求,并通过对其日常运维工作的分析提供出针对性的解决方案。

海量异构设备统一纳管

        内置大量不同类型、不同品牌型号设备监控模型,通过多维度监控设备,获取网络最新运行状态。监控指标涵盖在线状态、Ping、CPU、内存、网络接口、磁盘、进程、电源、风扇、温度等各方面。且不同类型和应用场景下的设备具备差异监控资源和监视指标,在设备统一纳管的情况下,实现差异化故障告警。

        提供设备、资源、设备间连接关系自动化发现绘制能力,以图形方式实现设备、资源、链路状态的直观展示,为设备部件故障的实时发现和有效处理提供便利。

灵活可配的设备、资源、监视任务模型库

        支持自定义配置设备类型、设备资源模型和故障监视器、性能监视器监视任务等模型,实现对电力公司内部覆盖存储设备、服务器、光纤交换机、交换机等设备类型,华为、H3C、浪潮、惠普、IBM、中兴、联想、DELL、曙光、南瑞、神州鲲泰、超聚变、沃趣、长城超云、Brocade、MELLANOX、贝尔、锐捷等设备品牌的近200个品牌型号的监控支持。

全面监控设备性能,感知网络运行态势

        全面采集网络内存储、服务器、光纤交换机、交换机等设备的性能信息,按照时间、资源、性能类型等多种维度,图形、表格等多种形式进行实时性能和历史性能的展示。并通过智能算法分析历史数据,对磁盘容量、交换机端口容量、机房机柜容量进行展示和预测分析,并根据容量可使用时间进行自定义预警。

多种告警机制,可自定义告警阈值

        支持多种告警机制,自定义配置告警阈值,从众多的事件、日志和状态信息中分析提炼异常数据并转化为告警。第一时间获取准确的告警信息,快速标示已执行操作的告警,迅速定位告警设备。

智能告警降噪,快速定位故障根因

        采用自动去重、风暴抑制、关联聚合、维护期时间屏蔽、依赖屏蔽等多种智能告警降噪机制,对各类告警进行自动压缩收敛,减少无效告警,一步定位发生故障的源头设备。快速检索异常问题关联涉及的各项维度与影响范围,快速定位问题边界,直达故障根因。

多种告警通知途径结合故障自愈能力,实现快速排障

        通过故障阈值的设置,在故障真正到来前,提前触发通知机制,三级逐步预警。告警发生中,自动关联调取内置的故障处置预案,配合告警自愈及自动派单能力,快速实现排障处置;在故障消失后,系统能自动检测到先前故障,并做自动清除告警处理。

        提供界面颜色、提示声、光效闪烁、信息列表、Email、短信、钉钉、企业微信、个人微信等多种通知渠道。

匹配真实运维场景的自动化巡检

        可自定义巡检策略对设备的运行情况进行统计和报表生成,并可预设时间巡检策略执行时间,进行自动化巡检,可向指定邮箱发送巡检结果报告。通过平台内人工触发或定时触发的方式,将巡检工作托管至平台自动执行,解放人力,实现对设备的定期快速检查。

设备配置文件备份、对比、恢复

        定期自动对设备策略进行巡检备份,可在线查看、下载保留或通过本次执行结果与上次执行结果或基线文件的对比,当配置出现异常时进行自动告警,并可结合故障自愈能力,自动回滚到信任的版本。

全网IT资产统一管理

        提供网络内IT设备一键同步资产数据库的功能,快速同步拓扑内的监控设备,并对其进行资产生命周期管理。以图谱的方式呈现资产与其他资产、配品配件、网络链路、使用人等静态关联关系。

对接I6000系统,实时推送告警与设备状态数据

        方案实现与I6000系统的对接,将设备的异常告警信息集中存储,统一分析处理,转化为I6000可识别的、符合国网要求的标准格式。通过设备信息同步功能,将设备资产、监控信息快速同步至I6000,丰富I6000内关于设备的性能、告警、基本信息等内容。

应用价值

        通过部署智和信通综合监控运维方案,7*24小时实时监控全网设备,获取IT设备的状态信息,真正满足用户硬件资源精细化监控需求。

        通过精细化监控设备的各项硬件指标,实时了解设备的运行状态和负载情况,及时发现硬件组件可能出现的性能瓶颈和故障,不但为设备配置调整和优化提供数据支撑,而且提前预警设备可能出现的故障,以便运维人员有充足的时间准备排障操作。同时,在故障出现后快速诊断故障产生的根本原因,提升排障效率,减少因设备故障带来的业务中断和损失。

        在整体运维工作中通过智和信通综合监控运维方案自动采集、存储、分析设备状态数据,通过设备远程控制和自动化编排运维的能力,对设备进行远程调控和维护,快速提高工作效率的同时,降低IT运维成本,保障电力信息系统稳定、高效运行。


http://www.ppmy.cn/devtools/36516.html

相关文章

关于PostgreSQL的20道面试题

1. 请解释PostgreSQL中的事务(Transaction)以及它的ACID属性。 PostgreSQL中的事务具有ACID属性,确保了数据库操作的可靠性和数据一致性。 以下是ACID各个属性的具体含义及举例说明: 原子性(Atomicity)&…

C++之list模拟实现

1、定义 定义一个结点: 在list类中的定义: 2、push_back() 3、迭代器 3.1迭代器的构造和定义 3.2、迭代器中的取值 3.3、迭代器的迭代(前置或前置--) 3.4、迭代器的迭代(后置或后置--) 3.5、迭代器的判断 3.6、在类list的定义 4.begin()和end() 5.con…

LeetCode:盛最多水的容器

文章收录于LeetCode专栏 盛最多水的容器 给你n个非负整数a1,a2,…,an,每个数代表坐标中的一个点(i, ai) 。在坐标内画 n 条垂直线,垂直线i的两个端点分别为(i, ai) 和 (i, 0)。找出其中的两条线,使得它们与…

netty 高性能架构设计--零拷贝

文章目录 前言一、直接内存1.1 什么是直接内存1.2 代码实现1.3 使用直接内存的优缺点 二、netty 零拷贝设计2.1 netty 直接内存2.2 netty 内存池 三、零拷贝的两种方式 前言 本篇从源码层面剖析 netty 高性能架构设计之零拷贝,并且扩展讲述零拷贝的两种实现方式。 …

Json拼接

package service.WebWh;import com.alibaba.fastjson2.JSONArray; import com.alibaba.fastjson2.JSONObject;public class a {public static void main(String[] args) {// 创建一个 JSONArray 对象用于存储多个 JSON 数据对象JSONArray jsons new JSONArray();// 创建第一个…

JAVA每日面试题(二)

Java高级面试问题及答案 问题1: 请解释Java内存模型(JMM)及其重要性 答案: Java内存模型(JMM)是一个抽象的概念,它定义了Java程序中各种变量(线程共享变量)的访问规则,以及在并发环境下如何保…

新媒体运营面试必备高频话术!建议收藏

01 请简单做个自我介绍 回答思路: 在面试前,面试官往往已经看过你的简历,所以要说简历上没有的。在表述的时候,可以按照以下3 点来讲: 热爱:体现你对行业和岗位的热爱 匹配:体现你的经历与岗…

python if __name__ == “__main__“啥意思

github copilot 在 Python 中,if __name__ "__main__": 是一个常见的模式。这个语句的作用是检查当前的模块(即 Python 文件)是否是被直接运行的,而不是被其他模块导入的。 在 Python 中,每个模块都有一个…