数据存储
时代"海纳百川,有容乃大"意味结构化、半结构和非结构化多样化的海量的 ,也意味着批数据和流数据多种数据形式的存储和计算。面对不同数据结构、数据形式、时效性与性能要求和存储与计算成本等因素考虑,应该使用适合的存储形式与计算引擎。但数据容量的急剧扩大,这对于和计算成本带来极大挑战。而应针对不同热度数据采用不同存储和计算资源,以优化存储和处理成本并提升可用性。
数据存储系统划分
从时效性或数据形式上分为批式数据、实时流式数据;数据从结构化上分为结构化、半结构化和非结构化 。根据数据热度不同对存储量、时效性、读写查询性能要求各异,选择适合存储技术。
存储技术分类如下:
- 传统关系数据库:Oracle、DB2、MySQL和SQL Server等,属于结构化数据存储。
- 分布式关系数据库:Hive、GreenPlumn、Teradata和Vertica等,属于结构化数据存储。
- NoSql存储:HBase、Redis、Elasticsearch、MongoDB和Neo4J等,属于半结构化和非结构化数据存储。
- 消息系统:Kafka、RocketMQ等消息系统,属于非结构化和半结构化短期存储。
- 文件系统:HDFS、S3和OSS等,属于结构化、半结构化和非结构化数据存储。
数据热度
所谓的数据热度,根据价值密度、访问频次、使用方式、时效性等级,将数据划分为热数据、温数据、冷数据和冰数据。数据热度应随着时间的推移,数据价值会变化,应动态更新数据热度等级,推动数据从产生到销毁数据生命周期管理。
- 热数据:一般指价值密度较高、使用频次较高、支持实时化查询和展现的数据。
- 温数据:介于冷热数据之间,主要用于数据分析。
- 冷数据:一般指价值密度低、使用频次较低、用于数据筛选和检索的数据。
- 冰数据:一般指价值极低,使用频次为零、暂时归档的数据。
- 热数据服务于决策管理者,建议采用存储量低,但对时效性、稳定性和可用性要求较高存储技术;
- 温数据服务于数据分析者,建议采用存储稍高,计算资源性能高能支持数据分析工具有效发挥的存储和计算引擎;
- 冷数据服务于数据科学家,建议采用大容量、 能力和可扩展存储技术;
- 冰数据采用超大容量,超低成本用于归档的存储技术。
对于冰数据归档数据,可根据企业数据战略按照数据年龄、法律强制保留年限等要求,制定数据销毁规则,对在充分挖掘数据价值前提下,对数据进行销毁减少不必要存储成本,其实这也是数据全生命周期管理的意义。
归档
数据归档是指将那些生命周期步入尾声保存到低性能廉价的存储,是数据生命周期管理必不可少的步
骤。在数据的正常运行过程中,数据热度从热、温、冷和冰的依次降温的转化可认为是归档的过程。
可根据企业监管法规要求及企业战略,指定出明确数据热、温、冷和冰数据之间的界限,制定出企业
数据归档策略,并依据归档策略对数据进行归档处理。
哪些数据需要归档,主要与监管法规的要求及企业的数据战略有关,其中有些关键的指标可供参考:
- 数龄大老化的数据
- 低使用率且容量大的数据
- 暂无数据价值的冰数据
- 企业监管法规要求强行保留的数据
- 由于数据具有关键性价值而被保留的数据,无关乎使用概率
数据归档还要考虑到数据结构重构、数据压缩格式改变、访问性变化、数据可恢复性和数据可理解性
元数据管理等方面。
销毁
随着存储成本的进一步降低,越来越多的企业采取了“保存全部数据”的策略。因为从业务和管理的角度,以及数据价值角度上讲,谁也无法未来会使用什么数据。但随着数据量急剧增长,从价值成本角度,存储超出业务需求的数据未必是个好的选择。有时候一些历史数据也会导致企业的法律风险,
因此数据的销毁还是很多企业应该考虑的选项。
对于数据的销毁,企业应该有严格的管理制度,建立数据销毁的审批流程,并制作严格数据销毁检查表。只有通过检查表检查,并通过流程审批的数据才可被销毁。
学习记录;源来自于:微信号biggata53o