数据全生命周期管理

news/2024/11/8 3:06:03/

数据存储

时代"海纳百川,有容乃大"意味结构化、半结构和非结构化多样化的海量的 ,也意味着批数据和流数据多种数据形式的存储和计算。面对不同数据结构、数据形式、时效性与性能要求和存储与计算成本等因素考虑,应该使用适合的存储形式与计算引擎。但数据容量的急剧扩大,这对于和计算成本带来极大挑战。而应针对不同热度数据采用不同存储和计算资源,以优化存储和处理成本并提升可用性。

数据存储系统划分

从时效性或数据形式上分为批式数据、实时流式数据;数据从结构化上分为结构化、半结构化和非结构化 。根据数据热度不同对存储量、时效性、读写查询性能要求各异,选择适合存储技术。
存储技术分类如下:

  • 传统关系数据库:Oracle、DB2、MySQL和SQL Server等,属于结构化数据存储。
  • 分布式关系数据库:Hive、GreenPlumn、Teradata和Vertica等,属于结构化数据存储。
  • NoSql存储:HBase、Redis、Elasticsearch、MongoDB和Neo4J等,属于半结构化和非结构化数据存储。
  • 消息系统:Kafka、RocketMQ等消息系统,属于非结构化和半结构化短期存储。
  • 文件系统:HDFS、S3和OSS等,属于结构化、半结构化和非结构化数据存储。

数据热度

所谓的数据热度,根据价值密度、访问频次、使用方式、时效性等级,将数据划分为热数据、温数据、冷数据和冰数据。数据热度应随着时间的推移,数据价值会变化,应动态更新数据热度等级,推动数据从产生到销毁数据生命周期管理。

  • 热数据:一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据。
  • 温数据:介于冷热数据之间,主要用于数据分析。
  • 冷数据:一般指价值密度低、使用频次较低、用于数据筛选和检索的数据。
  • 冰数据:一般指价值极低,使用频次为零、暂时归档的数据。
    在这里插入图片描述
  • 热数据服务于决策管理者,建议采用存储量低,但对时效性、稳定性和可用性要求较高存储技术;
  • 温数据服务于数据分析者,建议采用存储稍高,计算资源性能高能支持数据分析工具有效发挥的存储和计算引擎;
  • 冷数据服务于数据科学家,建议采用大容量、 能力和可扩展存储技术;
  • 冰数据采用超大容量,超低成本用于归档的存储技术。
    对于冰数据归档数据,可根据企业数据战略按照数据年龄、法律强制保留年限等要求,制定数据销毁规则,对在充分挖掘数据价值前提下,对数据进行销毁减少不必要存储成本,其实这也是数据全生命周期管理的意义。

归档

数据归档是指将那些生命周期步入尾声保存到低性能廉价的存储,是数据生命周期管理必不可少的步
骤。在数据的正常运行过程中,数据热度从热、温、冷和冰的依次降温的转化可认为是归档的过程。
可根据企业监管法规要求及企业战略,指定出明确数据热、温、冷和冰数据之间的界限,制定出企业
数据归档策略,并依据归档策略对数据进行归档处理。
哪些数据需要归档,主要与监管法规的要求及企业的数据战略有关,其中有些关键的指标可供参考:

  • 数龄大老化的数据
  • 低使用率且容量大的数据
  • 暂无数据价值的冰数据
  • 企业监管法规要求强行保留的数据
  • 由于数据具有关键性价值而被保留的数据,无关乎使用概率

数据归档还要考虑到数据结构重构、数据压缩格式改变、访问性变化、数据可恢复性和数据可理解性
元数据管理等方面。

销毁

随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度,以及数据价值角度上讲,谁也无法未来会使用什么数据。但随着数据量急剧增长,从价值成本角度,存储超出业务需求的数据未必是个好的选择。有时候一些历史数据也会导致企业的法律风险,
因此数据的销毁还是很多企业应该考虑的选项。

对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。

学习记录;源来自于:微信号biggata53o


http://www.ppmy.cn/news/74394.html

相关文章

metaRTC+ZLMediaKit实现webrtc的推拉流

概述 ZLMediaKit是一个基于C11的高性能运营级流媒体服务框架,是一个支持webrtc SFU的优秀的流媒体服务器系统。 metaRTC新版本支持whip/whep协议,支持whip/whep协议的ZLMediaKit推拉流。 信令通信 ZLMediaKit新版本支持whip和whep协议,支…

【网络工程师人手必备的常用网络命令合集,整理收藏!】

在计算机网络中经常要对网络进行管理,测试,这时就要用到网络命令。今天就为大家整理了一些网络工程师必备的一些常用网络命令合集,建议收藏后观看哦! ping命令 ping是个使用频率极高的实用程序,主要用于确定网络的连…

一图看懂!RK3568与RK3399怎么选?

▎简介 RK3568和RK3399都是Rockchip公司的处理器,具有不同的特点和适用场景。以下是它们的主要区别和应用场景。 ▎RK3568 RK3568是新一代的高性能处理器,采用了22nm工艺,具有更高的性能和更低的功耗。它支持4K视频解码和编码,支持…

计算机分类——软考小知识

目录 一、按照计算机体积和工作能力划分 二、按照指令系统划分 一、按照计算机体积和工作能力划分 个人移动设备:带有多媒体用户界面的无线设备,如智能手机、平板电脑等 桌面计算机: 基于超大规模集成电路技术的CPU,包括低端的上网本、笔记本、台式机…

DMZ和LAN的概念是什么?区别和联系是什么?

DMZ和LAN的概念是什么?区别和联系是什么? 1.DMZ的概念 DMZ就是用来放置服务器的 DMZ代表"Demilitarized Zone"(非军事区),是位于内部网络和外部网络之间的中间地带。在计算机网络安全中,DMZ是一个…

数据结构课程设计——集合的交、并和差运算

集合的交、并和差运算 数据结构课程设计任务书 学生姓名: 专业班级: 软件工程 指导教师: 工作单位: 题 目: 集合的并、交和差运算 基础要求: 掌握数据结构与…

yolov8seg模型转onnx转ncnn

yolov8是yolo的最新版本,可做图像分类,目标检测,实例分割,姿态估计。 主页地址 这里测试一个分割模型。 模型如下 选yolov8n-seg模型,转成onnx,再转ncnn测试。 yolov8s-seg的ncnn版可以直接用这个 如果用…

【网络编程】实现UDP/TCP客户端、服务器

目录 一、UDP 1、Linux客户端、服务器 1.1udpServer.hpp 1.2udpServer.cc 1.3udpClient.hpp 1.4udpClient.cc 1.5onlineUser.hpp 2、Windows客户端 二、TCP 1、单进程版的TCP客户端、服务器 1.1tcpServer.hpp 1.2tcpServer.cc 1.3tcpClient.hpp 1.4tcpClient.cc …