大数据中的数据安全

news/2024/11/29 16:31:30/

数据安全体系全貌

 在数据仓库平台中,对应数据的请求必须严格尊属数据安全体系

数据使用安全

  • 数据安全 = 认证 + 授权

认证主要是对用户的身份确认,比如最简单的用户的登录需要账户和密码;像你登录Mysql需要输出用户名和密码。比如大数据中使用的kerberos的认证框架的认证管理。

授权是指用户可以访问的资源,比如授权用户张三不能访问ods层的表,可以访问dwd层和dws层的表。再比如java中基于角色的身份认证RBAC(Role-Based Access Control)基于角色的权限控制。比如大数据中使用的Sentry和Ranger的授权框架的权限管理。

一般意义上的数据安全流程

  • 数据的产生:通过数据分级体系对敏感字段打标签;
  • 数据的存储:需要通过加密的方式存储相关数据,避免直接存储Text格式的数据;
  • 数据的使用:包括了一个独立的权限控制系统;
  • 数据的传输:相关的申请与查询操作需要通过专门的API接口进行,并且有高安全等级的加密措施;
  • 数据的展示:在申请通过后,根据申请人的安全等级,展示对应等级的数据;
  • 数据的销毁:敏感数据仅在HDFS上做逻辑删除是不够的,需要配合物理删除同步清理敏感数据。

仓库中数据表分级标准

        一般情况下,数据仓库部门对外开放的表是ads层,可能由于需要可以申请dwd层的数据,但是ods层的原始数据是不会对外开放的。对于这些对外开放的表也会有安全等级的划分。

表安全设置为四个等级:

  • S4:非业务核心表,删除对于其他计算任务无影响;
  • S3:非业务核心表,但删除对于其他计算任务有一定的影响;
  • S2:业务核心表,仅限本部门使用,删除对于其他部门使用无影响;
  • S1:业务核心表,删除对于其他部门使用有影响。

http://www.ppmy.cn/news/3969.html

相关文章

机器学习~从入门到精通(一)knn算法数据集处理训练模型

一、机器学习的概念 机器学习的概念: 重点在于学习 ,区别于让机器去执行我们定义好的规则 我们让机器去学习,也就是具备一定的预测能力,需要我们给机器大量的数据,以及给定对于这些数据 机器如何去看待的规则&#x…

module命名空间

为什么要有namespaced命名空间? 默认情况下,模块内部的action、mutation和getter都是在全局命名空间。 假设两个modules内部有同名的action、mutation和getter,则vuex会报错。 namespaced作用:保证模块内部的高封闭性,…

【PostgreSQL的“double buffers“刷脏机制和参数】

PostgreSQL数据库使用双缓存写数据,shared_buffer OS page cache,下图是PG与OS内存交互的过程 ,在PostgreSQL中,shared_buffers所代表的内存区域可以看成是一个以8KB的block为单位的数组,即最小的分配单位是8KB。这正好是一个page的大小&…

C++ 初阶 文件操作和io流

作者:小萌新 专栏:C初阶 作者简介:大二学生 希望能和大家一起进步! 本篇博客简介:简单介绍C中的文件操作和io流 文件操作和io流C语言中的输入和输出流是什么?Cio流C标准io流C中流的特性C文件io流以二进制形…

Python Pandas时间序列详解

Python Pandas时间序列详解 顾名思义,时间序列(time series),就是由时间构成的序列,它指的是在一定时间内按照时间顺序测量的某个变量的取值序列,比如一天内的温度会随时间而发生变化,或者股票…

Java 包(package)

为了更好地组织类,Java提供了包机制,用于区别类名的命名空间。 包的作用 1 把功能相似或相关的类或接口组织在同一个包中,方便类的查找和使用。2 如同文件夹一样,包也采用了树形目录的存储方式。同一个包中的类名字是不同的&…

Git的安装,理论基础与基本使用

前言 本文为Git的安装,理论基础与基本使用相关知识,下边将对Git的安装与环境配置,Git相关理论基础(包含:Git 是什么,Git的三种状态,Git保证完整性),以及Git的相关操作&am…

频率调优(调频)

文章目录 前言 1 频率调优步骤 1.1 准备工作 1.2 串行模式微调 1.3 PPM模式微调 2 高级用户 前言 某些协议需要调优以获得最佳性能。在某些情况下,需要调优才能绑定协议。频率调优是每个 MULTI 模块所特有的,是由于射频组件的微小变化引起的。 &#xf…