说说 Hadoop 的基本组件
Hadoop 主要由以下几个基本组件构成:
HDFS(Hadoop Distributed File System):它是一个分布式文件系统,能将文件切分成多个数据块,并存储在不同的节点上。具有高容错性,可在低成本的硬件上搭建,适合存储海量数据 。例如,互联网公司存储用户的行为日志数据,这些数据量极大且持续产生,HDFS 可以很好地应对这种大规模数据存储需求。
MapReduce:这是一种编程模型和计算框架,用于大规模数据集的并行计算。它把复杂的任务分解为多个简单的子任务,这些子任务可在集群中的多个节点上并行执行,然后将结果汇总。比如在处理海量文本数据时,可通过 MapReduce 的 Map 阶段对文本进行分词、计数等操作,Reduce 阶段再对这些中间结果进行汇总,得出最终的词频统计结果。
YARN(Yet Another Resource Negotiator):负责集群的资源管理和任务调度。它把集群中的资源抽象为容器,根据应用程序的需求分配资源。这样可以更好地支持多种计算框架,提高集群资源的利用率。例如,不同的任务如数据处理、机器学习等可根据自身需求向 YARN