业务连续性
- 业务连续性管理
- 业务连续性的概念
- 业务连续性计划建设过程
- 组织管理
- 业务影响分析(BIA)
- BIA-1确定业务优先级
- BIA-2风险分析
- BIA-3资产优先级划分
- 制定及批准实施
- 制定及批准实施-风险降低
- 制定及批准实施-风险转移
- 制定及批准实施-风险规避与风险接受
- 制定及批准实施-文档化
- 批准与实施
- 评估及维护
- 网络安全应急响应
- 安全事件、分类分级
- 应急响应预案
- 应急响应预案的内容
- 应急响应预案的格式
- 应急演练与演习
- 信息安全应急演练的操作流程
- 应急响应管理过程
- 计算机取证
- 计算机取证-准备
- 计算机取证-保护
- 计算机取证-提取
- 计算机取证-分析及提交
- 应急响应六阶段
- 第一阶段 — 准备
- 第二阶段 — 检测
- 第三阶段 — 遏制
- 第四阶段 — 根除
- 第五阶段 — 恢复
- 第六阶段 — 跟踪总结
- 灾难备份与恢复
- 灾难备份与恢复基本概念,灾备技术
- 灾备概念
- 灾备指标
- 灾备组织
- 国家灾备政策及相关标准
- 灾难恢复相关技术
- 存储技术
- 备份技术
- 冗余磁盘阵列( RAID)
- 备用场所
- 灾难恢复策略与灾难恢复规划管理过程
- 国际标准SHARE78
- 第1级 — 基本支持
- 第2级 — 备用场地支持
- 第3级 — 电子传输和部分设备支持
- 第4级 — 电子传输及完整设备支持
- 第5级—实时数据传输及完整设备支持
- 第6级—数据零丢失和远程集群支持
- 组织容灾策略构建
- 灾难恢复规划的工作内容
- 灾难恢复需求分析
- 灾难恢复策略制定
- 灾难恢复策略实现
- 灾难恢复预案制定和管理
业务连续性管理
业务连续性的概念
业务连续性(BC)
业务连续性(Business Continuity, BC)是组织对事故和业务中断的规划和响应,使业务可能在预先定义的级别上持续运行的组织策略和战术上的能力。
主要为长期停产和灾难事件提供解决方法和程序(如灾难发生关键业务转移到异地,各岗位安排合理人员,在恢复正常秩序之前改变业务运作模式,通过各种渠道处理与客户和合作伙伴及股东之间的关系等)
业务连续性管理( BCM)
BCM是找出组织有潜在影响的威胁及其对组织业务运行的影响,通过有效响应措施保护组织的利益、信誉、品牌和创造价值的活动,并为组织提供建设恢复能力框架的整体管理过程
1)提高抵御业务中断风险的能力,帮助企业达成关键目标
2)预先确定恢复提供关键产品或者服务的能力所需要的时间
3)交付经证明的应对业务中断的管理能力,保护组织的信誉和品牌
一项综合管理流程,由业务驱动,集合了技术、管理的一体化动态管理流程
BCM与组织机构
BCM组织是组织管理的组成部分
BCM应为业务战略服务
BCM是风险管理框架的补充,考虑业务中断的影响
BCM的生命周期
需求、组织和管理程序的确定
业务分析,确定关键业务流程和关键因素
制定业务策略
开发并执行业务持续计划
意识培养和建立
计划演练
建立BCM团队
BCM负责人:应该业务相关负责人
BCM团队成员:信息部门、人力资源、财务部门、后勤保障、安全保卫、宣传部门、专家团队等
BCM支撑资源
基础设施资源:场地、通信设施、电力资源
软硬件资源:网络设备、计算设备、系统软件等。
人力资源:业务责任人、BCP的团队成员等。
BCP资源:BCP开发、测试、培训、演练和维护资源。
办公用品资源等。
BCM的合规性
法规合规性:网络安全、知识产权、隐私保护等
标准合规性:国内GB、国外(例如欧盟的隐私保护)
合同合规性:和合同协议相关方确定的BCM的要求。
审计合规性:满足审计要求
业务连续性计划建设过程
什么是业务连续性计划(BCP)
一套基于业务运行规律的管理要求和规章流程,能够使一个组织在突发事件面前迅速做出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变【只做硬件冗余和数据备份?】
建立在对组织机构各种过程的风险评估之上
关注基础设施功能和资源减少或受限的情况下维持业务操作
BCP应成为组织管理文化的一部分,企业业务模式或业务过程变化情况下,应
重新设计
包含组织管理,业务影响分析,BCP的制定及批准实施,BCP的评估及维护,四个步骤
组织管理
理解业务组织(通过调查,访谈和讨论方式)
充分了解组织的体系结构及其组成部分
清晰每个业务流程及相互依赖关系(包含但不限于流程,事务处理和服务)
建立BCP团队(组建后再彻查业务组织,防止其不完善)
负责人 、团队成员【IT人员,安全部门,业务运作人员,等等】
评估BCP资源
购买和部署冗余设备、办公用品等
BCP开发过程,BCP测试、培训、维护过程中的人力资源(最重要的资源之一)
BCP的合规性要求
法律法规合规性、合同的合规性
2003年中央办公厅《国家信息化领导小组关于加强信息安全保障工作的意见》银行,电力,铁路,民航,证券,保险海关,税务等八大行业业务连续性要求
业务影响分析(BIA)
确定组织持续运行的关键资产、针对这些资产的威胁、评估每种资产出现的威胁及对业务的影响
提供量化度量以确定投入资源的优先顺序
工作内容
确定业务优先级
风险分析
资产优先级划分
业务影响分析完成后,文档化所有的流程!
BIA-1确定业务优先级
业务流程综合列表,按重要性排序
业务功能实际运作需要资源(计算机系统、人员、通信、物理设备)和服务,如果其中的一项或者几项机制失效,有可能业务中断。
确定业务优先级的关键点
业务所需资源的相互关系
对外部组织或其他方的依赖
确定业务优先级需要做的工作
评估如果业务中断,随时间推移对组织所造成的影响
为每项业务建立最大允许中断时间(MTD)
识别任何相互依赖的活动、资产、用于支持的基础设施和资源
度量标准
恢复时间目标( RTO)<最大允许中断时间(MTD)
MTD参考
无关紧要业务:30天
正常业务:7天
重要业务:72小时
紧急业务:24小时
危急业务:几分钟-几小时
BIA-2风险分析
识别并分析组织所面临的重大风险
风险要素识别
威胁分析:
1)自然威胁:洪水、地震、泥石流等
2)人为威胁:恐怖活动、战争、罢工,盗窃、毁坏、火灾/爆炸等
可能性分析:年发生比率(ARO) , ARO 反映了业务预期每年遭受特定灾难的可能性
影响分析:包括生产力、收入的损失。收入延迟成本。运作费用增加。竞争优势损失。法规责任。违反合同协议。声誉的损失。
BIA-3资产优先级划分
针对各种不同风险所分配的业务连续性资源的优先级
确定资源水平时,应考虑相关利益方的需求
优先级列表可结合定量和定性两种方法确定:
定性分析:用已识别风险的发生概率、风险发生对目标的相应影响,对已识别风险的优先级进行评价。
定量分析是使用数学方法和统计工具所进行的项目风险分析,一般应当在确定风险应对计划时进行,以确定项目总风险是否已经减少到满意。
制定及批准实施
BCP的制定
确定业务连续性计划要处理的风险及采取的措施
四种风险处置方式
风险降低:例如,BCP中包括了预防性措施等。
风险转移:例如,BCP中体现了外包服务等。
风险规避:例如,BCP中体现了临时的系统关闭等。
风险接受:例如,BCP中体现了低级的预警可接受。
制定及批准实施-风险降低
预防性策略和反应性策略
采用适当地、低成本的预防性措施应当优于反应性策略
重点保护对象:人力资源
人是BCP的关键组成部分
措施:人员冗余(AB角、轮岗、多技能培训等)、负责同一重要业务人员不能同时面临某个特定风险,例如不能同乘一架飞机
重点保护对象:IT基础设施
信息系统设施主要部分(硬件、软件、支撑环境等)
措施:保护性措施(发电机、火灾探测和灭火社保等)、冗余措施等
重点保护对象:辅助性设施
为完成业务所需要的其他设施(非IT)
措施:强化机制和过程、备用场所
1)采取强化机制和过程用于保护现有的设施能够抵御已定义的风险,如设施建筑材料的强化、安装防火墙等;
2)在不可能强化设施抵御风险时, BCP 应该确定业务活动可以立即恢复的预备场所,如热站、温站、冷站。
制定及批准实施-风险转移
降低财务风险或资产的风险的有效方式,但有些风险不能转移,例如不能转移信誉风险,即使服务交付是外包的,产生安全问题影响的仍然是组织【不确定的事故、品牌或信誉的损失、市场份额的降低或人身安全等】
转移方式
购买保险
合同(向第三方支付费用)
• 外包合同中承诺的赔付
• 采购第三方服务
制定及批准实施-风险规避与风险接受
风险规避
变更、延缓或停止某种服务或业务功能。某项活动存在风险损失的可能性较大时,采取主动放弃或加以改变,以避免与该项活动相关的风险的策略。
该措施只能在与组织目标、法律法规符合性以及利益相关方的期望不发生冲突时考虑
风险接受
采取措施的潜在收益与成本不成比例
对某些风险能够采取措施的能力有限
【风险发生的影响处置计划可作为风险接受的补充】
制定及批准实施-文档化
文档化是BCP过程中的关键步骤:描述BCP 团队和高级管理层提出的BCP 的目标,它有助于指导BCP 资源和任务的合理分配,为BCP 的实际制订过程提供指导,对计划和程序的整体经济性做出合理判断。
文档需要包含的内容
BCP的目标:必须细化,“确保在灾难事件发生时保证业务的连续性运行
”不行,应该为例 “要求关键性业务不能中断超过30 分钟”
职责声明:确保相关人员都了解他们自己的职责
优先级声明:1)业务的优先级声明,了解哪些是关键业务,哪些是次要
业务极为重要。2)首先恢复哪部分,然后恢复哪个部分。3)恢复文件服务器之前,有必要保证数据库能够正常运行。
风险评估:风险时执行定性和定量分析,风险在变,必须进行定期更新
BCP策略:覆盖风险分析时确定的所有风险的处置,包括可接受的风险和不可接受的风险。
可接受:阐述原因
不可接受:阐述风险缓解的预备措施和用来减少威胁组织的风险过程。
关键业务记录计划:关键业务记录存放的地方和记录建立及备份的过程
应急响应的指导原则:概述了组织和个人对于紧急事件立即响应的职责,安
全性规程、防火规程、通知该事件的紧急处理机构(消防、网警等)
测试与演练:正式的测试计划,并且所有人员都接受了充分培训
批准与实施
向高层汇报并获得计划的批准
培训和教育,计划中涉及的所有人都需要接受与 职责相关的培训
对BCP 有直接责任的员工更需要进行足够的培训,对其在BCP中具体负责的任务进行评估以确保在灾难发生时他们能够有效地完成安排的任务。
评估及维护
业务的动态性决定了业务连续性要求也会随时改变
定期讨论、复审、测试结果,必要时进行版本更新
网络安全应急响应
安全事件、分类分级
信息安全事件
由于自然或人为以及软、硬件本身缺陷或故障的原因,对信息系统造成危害,或者在信息系统内发生对社会造成负面影响的事件
对信息安全事件进行有效管理和响应,是组织机构安全战略的一部分
应急响应
组织为了应对突发/重大信息安全事件的发生所做的准备,以及在事件发生后所采取的措施。
高技术复杂性与专业性、强突发性、对知识经验的高依赖性,以及需要广泛的协调与合作
应急响应工作列为我国信息安全保障工作的重点之一!
《网络安全法》在“第五章监测预警与应急处置”中,应急响应进入法律GB/T 24364-2009 {信息安全技术信息安全应急响应计划规范》GB/Z 20985-2007 {信息技术安全技术信息安全事件管理指南》
2017 年1 月,中央网信委印发了《国家网络安全事件应急预案》
2017年,工信部印发了《工业控制系统信息安全事件应急管理工作指南》
2017年11月,工信部印发了《公共互联网网络安全突发事件应急预案》
分类分级是有效防范和响应信息安全事件的基础,能够使事前准备、事中应对和事后处理的各项相关工作更具针对性和有效性
分类
GB/Z 20986-2007 中,分有害程序事件、网络攻击事件、信息破坏事件、信息内容安全事件、设备设施故障、灾害性事件和其他信息安全事件7个基本类别,每个类别下有若干子类
分类
有害程序事件:木马、病毒、流氓软件;
网络攻击事件:DoS攻击、探测、扫描、劫持等;
信息破坏事件:网页篡改为随机乱码等;
信息内容安全事件:反动言论、谣言等;
设备设施故障:电力中断;
灾害性事件:地震、火山、海啸、台风等;
其他信息安全事件:诈骗、盗版、社会工程学攻击
分级
参考要素:信息系统的重要程度,系统损失,社会影响
• 信息系统的重要程度:对国家安全、经济建设、社会生活的重要性,划分为特别重要信息系统、重要信息系统和一般重要系统3个级别
• 系统损失:对信息系统的软硬件、功能及数据的破坏,导致系统业务中断,从而给组织和国家所带来的损失,划分为特别严重的系统损失、严重的系统损失、较大的系统损失和较小的系统损失4个级别
• 社会影响:造成影响的范围和程度,其大小主要考虑国家安全、社会秩序、经济建设和公众利益等方面的影响,划分为特别重大的社会影响、重大的社会影响、较大的社会影响和一般的社会影响4个级别。
四级
• 特别重大事件(I级)
• 重大事件(II级)
• 较大事件(III级)
• 一般事件(IV级)
颜色表示:红色、橙色、黄色、蓝色
国际应急响应组织
计算机应急响应协调中心(CERT /CC)
世界上第一个信息安全应急响应组织的成立归因于1988 年11 月发生的“莫里斯蠕虫病毒”事件。卡内基梅隆大学的软件工程学院向美国国防部高级研究项目处申请资金,成立了CERT/CC,协调处理整个互联网的信息安全应急响应。
国家应急响应组织
国家计算机网络应急技术处理协调中心(CNCERT /CC )
早期的计算机病毒防范和“千年虫”问题解决,2002年9月,成立非政府非盈利的网络安全技术中心,是我国网络安全应急体系的核心协调机构。
信息安全应急响应组织
1)国际应急响应组织:CERT,实际由美国主导运营。
2)国家应急响应组织:CNCERT,现隶属中央网信部门。
3)行业应急响应组织:例如公安、交通、电力等。
4)地方应急响应组织:北京(直辖市)、四川省网信运营。
5)运营单位应急响应组织:例如,某国有企业应急部门。
信息安全应急响应组织
组织机构应急响应组织架构
**应急响应领导组:提供决策。**单位的领导成员组成
**应急响应技术保障组:应急响应提供技术支持保障。**信息安全的部门,制定信息安全事件技术对应表。制定具体的角色和职责分工细则。制定应急响应协同调度方案等
**应急响应专家组:提供咨询和指导。**安全在内的内外部专家,对重大信息安全事件进行评估,提出启动应急响应的建议
**应急响应实施组:处理应急响应的过程。**应急响应工作的执行部门,分析应急响应需求,如风险评估、业务影响分析等。确定应急响应策略和等级。编制应急响应计划文档。组织应急响应计划的测试、培训和演练。合理部署和使用应急响应资源等
**应急响应日常运行组:实施日常的运行维护。**应急响应的维护部门,协助灾难恢复系统的实施。备份系统的运行与维护。应急监控系统的运作与维护。落实基础物质的保障工作。维护和管理应急响应计划文档等。
应急响应预案
什么是应急预案
在分析网络与信息系统突发事件后果和应急能力的基础上,针对可能发生的重大网络与信息系统突发事件,预先制定的行动计划或应急对策。
应急预案编制
建立在综合防灾规划之上
描述支持应急操作的技术能力,并适应组织要求
在详细程度和灵活程度之间取得平衡
为信息安全事件中不熟悉计划的人员提供快捷明确的指导
应急响应预案的内容
参考:《国家网络安全事件应急预案》
计划:事件、位置、负责人、资源、时间要求。
预案:怎么做?机制、流程、步骤、措施等。
分类:计划和预案可为一套文件,也可两套文件。
内容:预案是事件处理措施的参考,非操作手册。
什么事件?
什么部门和人负责?
要求什么时间内要达到什么目标?
处理该事件的可选择措施有哪些?
参考的操作手册及管理制度
其他注意事项
要求:适用性、可行性、高效性、便捷性、变通性等。
应急响应预案的格式
没有标准格式
总则:制定应急预案的背景、目的
角色及职责:明确各部门在应急响应过程中的定位
预防和预警机制:如何预防和预警信息安全事件的发生
应急响应流程:如何启动应急响应,以及如何对信息安全事件进行响应和处置
应急响应保障措施:为应急响应工作做了那些方面的准备和保障
附件:明确关键业务系统信息安全应急响应指挥体系和工作机制等等补充内容
应急演练与演习
检验应急响应预案的有效性、应急准备的完善性、应急响应能力的适应性和应
急人员的协同性
演练方式
桌面演练(各部门人员,坐一起对应急预案进行“纸上谈兵”式的演练)、模拟演练(模拟的环境中执行应急流程,有效性和完备性)、实战演练
(真实环境下对信息安全事件进行模拟,有效性和人员的协同能力)
演练深度
数据级演练、应用级演练、业务级演练
准备情况
计划内演练和演习,计划外演练和演习
信息安全应急演练的操作流程
事件确认(课程中不涉及,但理论上应该有)
应急事件通报
确定应急事件优先级
应急响应启动实施
应急响应时间后期运维
更新现有应急预案
应急响应管理过程
计算机取证
计算机取证的概念
什么是计算机取证
使用先进的技术和工具,按照标准规程全面地检查计算机系统,以提取和保护有关计算机犯罪的相关证据的活动
原则
合法原则、充分授权原则、优先保护证据原则、全程监督原则
取证流程
计算机取证-准备
获取授权
取由事件发生组织(受害方)或第兰方执法机构(公安部门等)给出。
目标明确
对取证的目的有清晰的认识,确定取证的目标资料及信息,对取证的目的有清晰的认识,明确取证要达到什么样的目标。
工具准备
对取证环境的了解及需要准备的工具
软件准备
对取证的软件进行过有效的验证,软件在取证环境下能有效地运行
介质准备
确保有符合要求的干净的介质可用于取证
计算机取证-保护
保证数据安全性
明确哪些取证操作可能导致证据或数据彻底丢失,避免使用这些类型的操作,如不要拔下电源线或关机。
保证数据完整性
取证中不使用可能破坏完整性的操作,例如:制作磁盘映像,尽量不在原始磁盘上操作
第三方监督
所有操作都有第三方在场监督,客观中立,取证过程中受到保护,防止其变得不可用、被改变或受到其他危害;同时确保对正常运行的影响最小或没有。
计算机取证-提取
优先提取易消失的证据
内存信息、系统进程、网络连接信息、路由信息、临时文件、缓存
文件系统
数据恢复、隐藏文件、加密文件、系统日志
应用系统
系统日志
计算机取证-分析及提交
证据在什么地方?
日志、删除的文件、临时文件、缓存
从证据中能发现什么?
事件发生时间,登录用户,以及进行的操作
如何关联证据?
时间先后顺序和用户登录信息关联证据
电子取证提交
必须与现实取证结合,文档化很重要
应急响应六阶段
第一阶段:准备——让我们严阵以待
第二阶段:检测——对情况综合判断
第三阶段:遏制——制止事态的扩大
第四阶段:根除——彻底的补救措施
第五阶段:恢复——系统恢复常态
第六阶段:跟踪总结——还会有第二次吗
第一阶段 — 准备
工作目标
确定重要资产和风险,实施针对风险的防护措施,预防为主;
编制和管理应急响应计划,应对事件发生做准备
• 应急响应计划的编制准备
• 编制应急响应计划
• 应急响应计划的测试、培训演练和维护
为响应组织和准备相关资源
人力资源(应急响应组织)
财力资源、物质资源、技术资源和社会关系资源等
第二阶段 — 检测
工作目标
检测并确认事件的发生
确定事件性质和影响
工作内容
进行监测、报告及信息收集
确定事件类别和级别
指定事件处理人,进行初步响应
评估事件的影响范围
事件通告(信息通报、信息上报、信息披露)
第三阶段 — 遏制
工作目标
限制事件影响的范围、损失(利益相关性)
工作内容:
启动应急响应计划
确定适当的响应方式
实施遏制行动(关闭系统,拔网线,提高系统监控级别)
要求用户按应急行为规范要求配合遏制工作
分析和平衡好事件影响、时间周期、空间特点
遵守以下行为规范:
(1)在没有向专家咨询之前不要关闭系统或者从网络上断开。
(2)按照组织的报告程序要求报告任何可疑的/异常的现象。
(3)继续监控并记录可疑的现象,直到处理该类安全事件的人员到达。
(4)不要修改系统或应用软件。
(5)除非得到管理层同意,不要告诉媒体任何信息
第四阶段 — 根除
工作目标
避免问题再次发生的长期的补救措施
工作内容
详细分析,确定原因
实施根除措施,消除原因
常见的根除措施有消除或阻断攻击源、找到并消除系统的脆弱性/漏洞、修改安全策略、加强防范措施、格式化被感染恶意程序的介质等。
如果受害者使用的是专用的系统,根除操作须遵循专门的操作规定;对机密的环境来说,低级格式化则更加彻底一些。
第五阶段 — 恢复
工作目标
恢复系统至正常状态
工作内容
根据破坏程度决定是在原系统还是备份系统中恢复
按恢复优先顺序恢复系统和业务运行
通常具体步骤:
(1)恢复工作相关人员获得访问备用设施和地理区域的授权;通知相关系统的内部和外部业务伙伴。(2)获得所需的办公用品和工作空间。(3)获得所需的硬件部件。(4)获得备份介质。(5)恢复关键操作系统和应用软件。(6)恢复系统数据。(7)启用备份系统。(8)获得访问受损设施和地理区域的授权。(9)重建主系统。(10)通知重要用户系统已经恢复;在适当的时候解除封锁措施等
第六阶段 — 跟踪总结
工作目标
回顾并汇总所发生事件的相关信息
工作内容
关注系统恢复以后的安全状况,记录跟踪结果
评估损失、响应措施效果
分析和总结经验、教训
重新评估和修改安全策略、措施和应急响应计划
对进入司法程序的事件,进行进一步调查,打击违法犯罪活动
编制并提交应急响应报告
灾难备份与恢复
灾难备份与恢复基本概念,灾备技术
灾备概念
为了保证关键业务和应用在经历各种灾难后,仍然能够最大限度的提供正常服务所进行的一系列系统计划及建设行为,其目的就是确保关键业务持续运行以及减少非计划宕机时间
灾难备份是灾难恢复的基础,灾难恢复不能只考虑信息系统的恢复,更应关注业务的恢复
灾难恢复计划(DRP)
定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能
灾备指标
恢复点目标(RPO):数据的备份频次有关
定义:灾难发生后,系统和数据必须恢复到的时间点要求
性质:代表了当灾难发生时允许丢失的数据量
属性:与完整性有关
恢复时间目标(RTO)
定义:灾难发生后,信息系统和业务功能从停顿到必须恢复的时
间要求
性质:代表了企业能容忍的信息系统和业务功能恢复的时间
属性:与可用性有关
灾备组织
组织构成
领导组、规划实施组、日常运行组等等(保障、专家等)
规划工作可聘请外部专家,实施和运行也可委托外包机构承担
国家灾备政策及相关标准
2003年,27号文首次提出灾备概念“提出基础网络和重要信息系统的建设要充分考虑抗毁性和灾难恢复,制定和不断完善信息安全应急处置预案。”
2005 年,国务院信息化工作办公室发布的《关于印发“重要信息系统灾难恢复指南“》的通知:指明了灾难恢复的工作流程、等级划分和预案的制定框架
2007年,GB/T 20988-2007【灾备唯一的国标】,规定了灾难恢复工作流程、灾
难恢复等及方案设计、预案、演练,指出了灾备中心建设的全生命周期、灾备中心的运维工作等
重点行业,如银行、证券、保险有《商业银行操作风险管理指引》、《证券期
货业信息系统安全等级保护基本要求》、《保险业信息系统灾难恢复管理指引》 ,均要求制订完善的灾难恢复计划
灾难恢复相关技术
存储技术
直接附加存储(DAS):电脑硬盘的连接
直接连接在各种服务器或客户端扩展接口下的数据存储设备, 依赖计算机,是硬件堆叠,不带操作系统
优点:适用物理位置分散情况、容易实现大容量存储,性能较高、实施简单 缺点:对服务器依赖性强,占用服务器资源、扩展性较差、资源利用率低、可管理性差
存储区域网络(SAN):
使用网状通道(FC) 技术,服务器和存储阵列通过FC 交换机进行连接,建立专用于数据存储的区域网络。
优点:专用网络、效率高、扩展方便
缺点:成本高、实施复杂、难度大(服务器和SAN 存储有兼容性的要求)
网络附加存储(NAS):Windows的文件夹共享
直接通过网络接口将存储设备与网络相连实现数据存储的机制,有独立IP地址,操作系统等
优点:易于安装和管理、不占用服务器资源、跨平台
缺点:性能相对较差,因为数据传输使用网络,可能影响网络流量、甚至可能产生数据泄漏等安全问题
备份技术
备份方式(介质可以选择磁带,硬盘,光盘)
完全备份:指对某一个时间点上的所有数据或应用进行的一个完全拷贝,包括其中的系统和所有数据。
增量备份:备份自上一次备份(包含完全备份、差异备份、增量备份)之后有变化的数据。
差量备份:每次备份的数据是相对于上一次全备份之后新增加的和修改过的据。
冗余磁盘阵列( RAID)
实现方式(可基于硬件,也可基于软件)
RAID-O(条带):提高了磁盘子系统的性能,但不提供容错能力,数据条带化,无校验,逻辑磁盘容量等于磁盘容量之和
RAID-1 (镜像):磁盘一对一镜像,确保数据不丢失,数据镜像,无校验,逻辑磁盘容量等于物理磁盘容量之和的1/2
RAID-5(奇偶校验):三块以上磁盘,其中一块作为校验信息,允许第一磁盘损坏,数据条带化,校验信息分布式存放,容量等于(N-1)块磁盘的容量之和
备用场所
冷站:只有数据备份,不采购和原有的类似的数据处理以及运营设备,遇到灾难时只能保留原有数据和程序,硬件设备需要另行采购,恢复运营速度较慢。使用冷站时,组织要负责提供和安装必要的设备和通信能力【灾备二级】
温站:介于冷站和热战两者之间,备份了全部数据并准备了部分设备,遇到灾难时需要采购一部分设备,恢复速度介于以上两者之间。【灾备三级】
热站:不仅备份了数据,而且准备了和原来一样的全套数据处理和运营设备,遇到灾难时只需要把数据导入,较短时间之内就能恢复正常运营【灾备四五六级】
移动站:带有满足系统需求的特定电信和IT设备的客户量身定做的自包含、可传
送的站点,通常包含在拖车尾部并可以开往所需的后备地点【应急通信车、发电设施、移动机房等】
镜像站:包含全部、实时信息镜像的冗余站点,提供了最高级别的可用性。镜像
站点通常是由组织机构自己设计、建设、操作维护和维持。(同时进行)
灾难恢复策略与灾难恢复规划管理过程
国际标准SHARE78
划分依据:八个方面
【 1.备份/恢复的范围。2.灾难恢复计划的状态。3.应用地点与备份地点之间的距离。4.应用地点与备份地点如何相互连接。5.数据是怎样在两个地点之间传送的。6.允许有多少数据丢失。7.怎样保证备份地点数据的更新。8.备份地点可以开始备份工作的能力】
灾难备份能力0~6级
0级:无异地备份
1级:简单异地备份
2级:热备中心备份
3级:电子传输备份
4级:自动定时备份
5级:实时数据备份
6级:数据零丢失
划分依据:七个要素
§数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、技术支持能力、运行维护管理能力和灾难恢复预案
6个灾难恢复等级
第1级 基本支持
第2级 备用场地支持
第3级 电子传输和部分设备支持
第4级 电子传输及完整设备支持
第5级 实时数据传输及完整设备支持
第6级 数据零丢失和远程集群支持
第1级 — 基本支持
第2级 — 备用场地支持
第3级 — 电子传输和部分设备支持
第4级 — 电子传输及完整设备支持
第5级—实时数据传输及完整设备支持
第6级—数据零丢失和远程集群支持
组织容灾策略构建
根据对灾难的抵抗程度,容灾技术可分为以下三种:
数据容灾(首要前提):建立一个异地的容灾中心,该中心是本地关键应用数据的一个可用复制,数据同步或异步复制到此中心
系统容灾(基本基础):保护业务数据、系统数据,保证网络通信系统的可用性,避免计划外停机。系统容灾技术包括冗余技术、集群技术、网络恢复技术等
应用容灾(主要关键):技术要求高,通过负载均衡、应用集中和隔离、自动化监控等手段实现业务应用的连续性和高可用性
灾难恢复规划的工作内容
灾难恢复规划:是一个周而复始的、持续改进的过程,包含以下四个阶段
灾难恢复需求分析
灾难恢复策略制定
灾难恢复策略实现
灾难恢复预案的制定和管理
灾难恢复需求分析
风险分析:分析灾难性事件的发生可能性
资产、威胁、脆弱性、可能性、影响
业务影响分析(BIA)
分析业务功能和相关资源配置
评估中断影响
确定灾难恢复目标
关键业务功能及恢复的优先顺序
RTO 和RPO 的范围
灾难恢复策略制定
灾难备份恢复策略
明确需要哪些灾难恢复资源、各项灾难恢复资源的获取方式,以及对各项灾难恢复资源的具体要求,对应我国的标准,按照7个要素制定策略。
1)数据备份
2)数据处理系统备份
3)网络系统备份
4)基础设施备份
5)备用技术支持能力
6)备用维护管理能力
7)灾备恢复预案
灾难恢复策略实现
选择和建设灾难备份中心
非自然灾害、便利的交通条件、电力资源、人才资源备份中心的综合风险(差异性风险)比主中心要低
实现灾难备份系统技术方案
数据备份、系统备份、网络备份、基础设施等。
实现专业技术支持能力
物理安全、网络安全、系统安全、应用等技术力量。
实现运行维护管理能力
管理机构、管理策略、管理制度、流程、体系。
灾难恢复预案制定和管理
制定灾难恢复预案
1、完整性:恢复计划包含灾难恢复的整个过程,灾难恢复所需尽可能全面的数据和资料。
2、易用性:恢复计划运用易于理解的语言和图表,并适合在紧急情况下使用。
3、明确性:恢复计划应采用清晰的结构,对资源进行清楚的描述,工作内容和步骤应具体,每项工作应有明确的责任人。
4、有效性:恢复计划应尽可能满足灾难发生时进行恢复的实际需要,并保持与实际系统和人员组织同步更新。
5、兼容性:恢复计划应与其他应急体系有机结合。
灾难恢复计划的教育与培训
灾难恢复计划演习(桌面演练,模拟演练,实战演练)
灾难恢复预案的保存与分发