大数据相关技术的基本概念?

news/2024/11/13 21:33:30/

一、Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
5.低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

二、HDFS

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large dataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

三、MapReduce

‌MapReduce是一种用于处理大规模数据集的编程模型,主要用于分布式计算。‌它的核心思想是将大数据处理任务分解为两个主要步骤:Map和Reduce。在Map阶段,输入数据被分解成一系列的键值对,这些键值对会被传送到对应的Reduce任务中进行处理。Reduce阶段则将这些键值对进行处理,最终生成一个结果。

四、Hive

‌Hive‌是一个基于Hadoop的数据仓库工具,主要用于存储、查询和分析存储在Hadoop中的大规模数据。Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,适合离线数据处理‌。
Hive的核心功能包括: ‌(1)数据存储‌:Hive可以存储大规模数据,这些数据通常存储在HDFS(Hadoop分布式文件系统)中。
(2)‌数据查询‌:用户可以通过类SQL的查询语言(HiveQL)对存储在Hive中的数据进行查询和分析。
‌(3)数据处理‌:Hive将SQL查询转化为MapReduce任务进行计算,利用Hadoop的分布式计算能力进行大规模数据处理‌。
Hive的架构和运行机制: ‌(1)底层存储‌:Hive的数据存储在HDFS上。
‌(2)数据处理‌:Hive将SQL查询转化为MapReduce任务进行计算,利用Hadoop的分布式计算能力进行数据处理。
‌用户接口‌:用户可以通过HiveQL(类似SQL的语言)进行数据查询和分析‌。
总之,Hive是一个强大的数据仓库工具,特别适合处理大规模的离线数据。

五、Spark

1.概念

‌Spark‌是一个基于内存的快速、通用、可扩展的大数据分析计算引擎,由加州大学伯克利分校的AMP实验室开发。它是一个分布式计算平台,主要用于处理大规模数据集,特别适用于数据挖掘和机器学习等需要迭代的计算任务‌。

2.Spark的特点

‌(1)内存计算‌:Spark能够在内存中运行计算,避免了MapReduce模型中多次读写磁盘的IO开销,显著提高了数据处理速度‌12。
‌(2)多种语言支持‌:Spark支持Java、Scala、Python、R和SQL等多种语言,使得开发更加灵活‌。
(3)‌通用性强‌:提供了多个工具库,包括Spark SQL、Spark Streaming、MLlib、GraphX等,适用于批处理、流处理、机器学习和图计算等多种场景‌。
‌(4)运行方式多样‌:可以在Hadoop、Mesos、Kubernetes等平台上运行,也支持独立的Standalone模式‌。

3.Spark与Hadoop的关系

    Spark和Hadoop是两个不同的数据处理框架,但经常被放在一起讨论。Hadoop是一个包含HDFS、MapReduce和Yarn的生态系统,主要用于数据的存储和批处理。而Spark则专注于数据处理,特别是实时数据处理和迭代计算。Spark的出现是为了弥补Hadoop在实时数据处理和交互式查询方面的不足,因此被视为Hadoop的升级版‌。

4.Spark的应用场景

(1)‌批处理‌:适用于大规模数据集的离线处理,如数据仓库的更新和维护。
(2)‌流处理‌:通过Spark Streaming,实时处理数据流,适用于需要快速响应的应用场景。
‌(3)机器学习‌:利用MLlib,进行分类、回归、聚类等机器学习任务。
(4)‌图计算‌:通过GraphX,处理大规模图数据,适用于社交网络分析等应用。

综上所述,Spark凭借其内存计算、多种语言支持和强大的工具库,成为大数据处理领域的重要工具,特别是在实时数据处理和迭代计算方面表现出色。

六、Flink

1.Flink概念

‌Apache Flink‌是一个开源的分布式处理引擎,主要用于对无界和有界数据流进行有状态的计算。Flink设计用于在所有常见的集群环境中运行,能够在内存中以极高的速度和任意规模执行计算‌。

2.Flink的核心特点

(1) ‌高吞吐、低延迟‌:Flink能够在保证高吞吐的同时,提供低延迟的处理能力。
(2) ‌精确的状态一致性保证‌:Flink能够确保状态的一致性,即使在分布式环境中也能保证数据处理的准确性。
‌(3) 容错能力强‌:Flink具有强大的容错能力,能够在节点故障时恢复状态,保证数据的完整性。
‌(4) 批流一体化‌:Flink支持批处理和流处理,能够处理有界和无界数据流,适用于离线和实时数据处理场景‌。

3.Flink与其他大数据处理框架的对比

(1)‌与Spark对比‌:Spark采用RDD模型,而Flink的基本数据模型是数据流和时间序列。Spark是批处理框架,而Flink是标准的流处理模式,适合处理实时数据流‌。
(2)‌与Kafka对比‌:Kafka主要用于消息队列,而Flink可以处理Kafka中的消息流,实现更复杂的实时数据处理和分析‌。

综上所述,Apache Flink是一个功能强大的分布式处理引擎,适用于各种大数据场景,特别是在需要高吞吐、低延迟和精确状态管理的应用中表现出色。

七、YARN

1.概念

‌YARN(Yet Another Resource Negotiator)‌是一个Hadoop生态系统中的资源管理系统,主要负责为大数据处理框架提供统一的资源管理和调度服务。YARN的设计目标是创建一个通用的资源管理系统,支持多种计算框架和应用程序的同时运行,包括长应用程序和短应用程序‌。

2.YARN的基本架构和功能

YARN主要由以下几个核心组件构成:
‌(1)ResourceManager(RM)‌:负责集群资源的统一管理和调度,处理客户端请求,监控。(2)NodeManager,分配资源给ApplicationMaster‌。
‌(3)NodeManager(NM)‌:管理单个节点上的资源,执行来自ResourceManager和ApplicationMaster的命令‌。
(4)‌ApplicationMaster(AM)‌:负责应用程序的管理,申请资源并分配给内部任务,监控任务执行‌。
‌(5)Container‌:对任务运行环境的抽象,封装了某个节点上的多维度资源,如内存、CPU、磁盘网络等‌。

八、HBase

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
此外,Pig和Hive还为HBase提供了高层语言支持,使得在HBase上进行数据统计处理变的非常简单。
Sqoop则为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据向HBase中迁移变的非常方便。


http://www.ppmy.cn/news/1546755.html

相关文章

Go语言 HTTP 服务模糊测试教程

写在前面: 此博客内容已经同步到我的博客网站,如需要获得更优的阅读体验请前往https://blog.mainjay.cloudns.ch/blog/go/fuzzing-test 作为开发人员,我们并不总能预见到程序或函数可能接收到的所有可能输入。 即使我们可以定义主要的边界情…

基本和引用数据类型以及对象字面量(day14)

一、基本和引用数据类型 1. 基本数据类型 String Number Boolean Null Undefined 引用数据类型 Object 2. JS中的变量都是保存到栈内存中 基本数据类型的值直接在栈内存中存储, 值与值之间时独立存在,修改一个变量不会影响其他变量 3. 对象&#xff…

应用于新能源汽车NCV4275CDT50RKG车规级LDO线性电压调节器芯片

关于车规级芯片(Automotive Grade Chip),车规级芯片是专门用于汽车行业的芯片,具有高可靠性、高稳定性和低功耗等特点,以满足汽车电子系统的严格要求。这些芯片通常用于车载电子控制单元(ECU)和…

FluentUI使用

首先向Qt Qml FluentUI组件库的作者zhuzichu520致敬! 一、源码下载地址: 1)GitHub - zhuzichu520/FluentUI: FluentUI for QML 2)GitCode - 全球开发者的开源社区,开源代码托管平台 二、Qt6下载地址: qt-online-i…

Pinpoint(APM)进阶--Pinot指标采集(System Metric/Inspector)

接上文 Pinpoint使用Pinot进行指标数据存储,Pinot流摄入需要Kafka 本文详解Kafka和Pinot的安装部署,以及Pinpoint的指标采集 Pinot 简介 Apache Pinot是一个实时分布式OLAP数据存储,专为低延迟、高吞吐量分析而构建,非常适合面…

哪些人群适合考取 PostgreSQL 数据库 PGCM 证书?

#postgresql#,作为开源数据库领域的佼佼者,凭借其强大的功能和广泛的应用场景,吸引了大量数据库从业者的关注。它代表着持有者在PostgreSQL数据库管理、优化、安全和高可用性设计等方面的专家级技能。 PGCM证书适合那些具备扎实理论基础和一…

某m大厂面经1

mybatisplus有什么优点 mybatisplus如何进行多表查询 项目中有哪些表 xxl-job如何实现分布式定时任务 feign和nacos之间怎么交互 springboot服务启动流程 怎么用jar包启动类 maven打包的形式 dependence和dependencemanagement区别 redis应用场景 redisson怎么实现 …

普通用户切换到 root 用户不需要输入密码配置(Ubuntu20)

在 Ubuntu 系统中,允许一个普通用户切换到 root 用户而不需要输入密码,可以通过以下步骤配置 sudo 设置来实现。 步骤: 打开 sudoers 文件进行编辑: 在终端中,输入以下命令来编辑 sudoers 文件: sudo visu…