大数据分析应用-初级
第一部分 基础知识
一、大数据法律法规、政策文件、相关标准
二、计算机基础知识
三、信息化基础知识
四、密码学
五、大数据安全
六、数据库系统
七、数据仓库.
第二部分 专业知识
一、大数据技术与应用
二、大数据分析模型
三、数据科学
大数据相关标准
前言
2、GB/T 38676-2020信息技术 大数据 存储与处理系统功能测试要求
(1)了解大数据、存储与处理系统术语和定义。
一、大数据相关术语
-
大数据(Big Data):具有体量巨大、来源多样、生成极快且多变等特征,并且难以用传统数据体系结构有效处理的数据集。大数据通常需要采用特殊的技术和方法,包括分布式计算、数据挖掘、机器学习等,以实现数据的存储、处理和分析。
-
数据存储:指将数据保存在存储设备或存储系统中的过程。在大数据领域,数据存储通常涉及分布式文件系统、分布式数据库等存储技术,以支持大规模数据的存储和高效访问。
-
数据处理:指对数据进行采集、清洗、转换、分析等一系列操作的过程。在大数据处理中,通常需要采用批处理、流处理等多种处理模式,以满足不同应用场景的需求。
二、存储与处理系统相关术语
-
存储系统:用于存储数据的系统,包括硬件设备(如磁盘阵列、固态硬盘等)和软件系统(如分布式文件系统、数据库等)。存储系统需要支持数据的可靠性、可用性、可扩展性等特性。
-
处理系统:用于处理数据的系统,包括计算设备(如服务器、集群等)和软件系统(如数据处理框架、机器学习算法等)。处理系统需要支持高效的数据处理、分析和挖掘能力。
-
分布式系统:一种由多个计算机节点组成的系统,这些节点通过网络相互连接,共同协作完成任务。分布式系统可以提高系统的可扩展性、可靠性和容错性,适用于大数据等复杂应用场景。
-
批处理框架:一种用于处理大规模数据集的框架,通常将数据集划分为多个批次进行处理。批处理框架支持数据的高效处理和分析,适用于离线数据处理等场景。
-
流处理框架:一种用于处理实时数据流的框架,可以实时地对数据进行采集、处理和分析。流处理框架支持数据的高吞吐量和低延迟处理,适用于实时数据分析等场景。
-
内存计算框架:一种将数据存储在内存中进行计算的框架,可以显著提高数据处理的速度和效率。内存计算框架适用于需要快速响应和高性能计算的应用场景。
三、其他相关术语
-
API(应用程序接口):一种用于不同软件之间通信的接口规范,可以使得不同的软件程序能够相互调用和集成。
-
数据备份:指将数据复制到另一个存储设备或存储系统中的过程,以防止数据丢失或损坏。数据备份是确保数据安全性和可靠性的重要手段。
-
数据恢复:指从备份中恢复数据的过程,通常用于在数据丢失或损坏时恢复数据。数据恢复需要依赖于有效的备份和恢复策略。
-
数据安全性:指保护数据免受未经授权访问、泄露、篡改或破坏的能力。在大数据领域,数据安全性至关重要,需要采用多种技术手段(如加密、访问控制等)来确保数据的安全性。
练习题目
一、单选题
1. 大数据的 “4V” 特性不包括以下哪一项?( )
A. 价值(Value)
B. 可视化(Visualization)
C. 多样(Variety)
D. 海量(Volume)
答案:B
解析:大数据的 “4V” 特性是指 Volume(海量的数据规模)、Velocity(快速的数据流转和动态的数据体系)、Variety(多样的数据类型)、Value(价值密度低),不包括可视化(Visualization)。
2. 以下哪种存储系统是直接连接到服务器的?( )
A. 存储区域网络(SAN)
B. 网络附加存储(NAS)
C. 直接附加存储(DAS)
D. 分布式文件系统(DFS)
答案:C
解析:直接附加存储(DAS)是直接连接到服务器的存储设备;网络附加存储(NAS)通过网络提供文件级的数据存储服务;存储区域网络(SAN)提供块级的数据存储服务;分布式文件系统(DFS)主要用于分布式存储,和直接连接服务器这个特点不对应。
二、多选题
1. 大数据的数据类型包括以下哪些?( )
A. 结构化数据
B. 半结构化数据
C. 非结构化数据
D. 元数据
答案:ABC
解析:大数据包括结构化数据(如关系数据库中的表数据,有固定的格式和模式)、半结构化数据(如 XML、JSON 格式的数据,有一定的结构但不像结构化数据那么严格)和非结构化数据(如图像、视频、音频等)。元数据主要是用于描述数据的数据,不属于大数据的数据类型分类范畴。
2. 以下哪些属于存储系统的硬件组成部分?( )
A. 磁盘阵列
B. 磁带库
C. 存储管理软件
D. 文件系统
答案:AB
解析:存储系统的硬件包括磁盘阵列、磁带库等存储设备。而存储管理软件和文件系统属于存储系统的软件部分,用于管理和组织存储硬件中的数据。
三、判断题
1. 数据挖掘就是简单的数据查询。( )
答案:错误
解析:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,而不是简单的数据查询。数据查询主要是按照特定的条件获取已有的数据记录,数据挖掘更侧重于发现数据中的潜在模式和知识。
2. 流处理系统只能处理结构化数据。( )
答案:错误
解析:流处理系统可以处理多种类型的数据,包括结构化数据、半结构化数据和非结构化数据。例如,在实时监控网络流量(非结构化的数据包流)、社交媒体实时消息(半结构化的消息格式)以及金融交易数据(结构化的交易记录)等场景中都会用到流处理系统。