Google的MapReduce和Hadoop的MapReduce基本原理

devtools/2024/10/18 15:01:40/

GoogleMapReduceHadoopMapReduce_0">Google的MapReduce和Hadoop的MapReduce基本原理


MapReduce框架的执行过程可以概述为以下几个关键步骤:

  1. 输入分割用户程序中的MapReduce库首先将输入文件分割成M个片段,每个片段通常大小在16MB到64MB之间,用户可以通过可选参数控制。

  2. 启动作业:程序在集群的多台机器上启动多个副本,其中一个机器作为master,其余作为worker

  3. 任务分配master负责分配M个map任务和R个reduce任务给空闲的worker

  4. Map任务执行:被分配map任务的worker读取相应输入片段的内容,解析出键/值对,并将其传递给用户定义的Map函数。Map函数生成的中间键/值对在内存中缓冲。

  5. 中间数据写入:缓冲的中间数据定期写入本地磁盘,并根据分区函数划分为R个区域。这些缓冲数据在本地磁盘上的位置信息被发送回master

  6. Reduce任务执行master通知reduce worker这些位置信息,reduce worker使用远程过程调用从map worker的本地磁盘读取缓冲数据。读取完所有中间数据后,reduce worker按中间键排序,并将每个唯一的中间键及其对应的值集合传递给用户定义的Reduce函数。

  7. 输出结果Reduce函数的输出被追加到最终输出文件中,每个reduce任务对应一个输出文件。

  8. 作业完成:所有mapreduce任务完成后,master唤醒用户程序,MapReduce调用在用户程序中返回。

MapReduce的工作流程就像是在厨房里准备一场大型宴会:首先,大厨(Master节点)将大量的食材(数据)切成小块(分割数据),然后分配给一群厨师(Worker节点)去处理。每个厨师根据食谱(Map函数)进行初步烹饪,比如统计每种食材的使用量。接着,他们将处理好的食材暂时存放起来。随后,大厨将相同类型的半成品收集起来,交给另一组厨师进行最终烹饪(Reduce函数),比如将所有相同的食材合并成一道菜。最后,当所有菜肴都准备好后,大厨将它们端上桌,供宾客享用(输出结果)。如果某个厨师无法完成任务,大厨会迅速找其他厨师来替补,确保宴会能够顺利进行。整个过程是自动化的,每个步骤都紧密协调,以确保最终的菜肴既美味又及时。

Hadoop MapReduce的执行流程与Google MapReduce有许多相似之处,因为Hadoop的设计受到了Google MapReduce论文的启发。以下是Hadoop MapReduce执行流程的概述图。


Hadoop 3.x 版本中,MapReduce 作业的执行流程分为两个主要阶段:Map 阶段和 Reduce 阶段。以下是这两个阶段的详细描述:

Map 阶段:

  1. 作业提交:用户通过客户端提交 MapReduce 作业,包括 MapReduce 任务。
  2. 资源申请ApplicationMasterResourceManager 申请执行 Map 任务所需的资源。
  3. 任务分配ResourceManager 根据集群资源情况,将 Map 任务分配给 NodeManager 执行。
  4. Map 任务执行NodeManager 在分配的容器中启动 Map 任务,Map 任务读取输入数据,处理后生成中间键/值对。
  5. 中间数据输出Map 任务将处理结果输出到本地磁盘,为后续的 Shuffle 和 Sort 阶段做准备。

Reduce 阶段:

  1. Shuffle 阶段Map 任务的输出被传输到 Reduce 任务。这个过程称为 Shuffle,它包括排序和合并 Map 任务的输出,以便为 Reduce 任务提供有序的输入。
  2. 资源申请ApplicationMasterResourceManager 申请执行 Reduce 任务所需的资源。
  3. 任务分配ResourceManagerReduce 任务分配给 NodeManager 执行。
  4. Reduce 任务执行NodeManager 在分配的容器中启动 Reduce 任务,Reduce 任务读取经过 Shuffle 阶段排序的中间数据,进行汇总和处理。
  5. 输出结果Reduce 任务将最终结果写入到 HDFS(Hadoop Distributed File System)中。

在整个过程中,ApplicationMaster 负责协调 MapReduce 任务的执行,监控任务进度,并与 ResourceManagerNodeManager 进行通信。此外,Hadoop 3.x 引入了更多的优化和改进,例如改进的 Shuffle 机制、更好的资源隔离和更高效的数据本地化,以提高 MapReduce 作业的性能和可靠性。

JobTrackerHadoop 1.x 版本中的关键组件,它负责管理和调度 MapReduce 作业。在 Hadoop 1.x 版本中,JobTrackerTaskTracker 配合工作,其中 JobTracker 负责作业的调度和监控,而 TaskTracker 则在各个节点上执行实际的任务。
随着 Hadoop 生态系统的发展,为了解决 Hadoop 1.x 版本中的可扩展性和资源管理问题,Hadoop 2.x 版本引入了 YARN(Yet Another Resource Negotiator)作为集群资源管理器。在 Hadoop 2.x 版本中,JobTracker 的职责被拆分,其中作业调度和监控的职责由 ResourceManager 组件承担,而任务的执行则由 NodeManager 组件负责。

// 设置Hadoop用户名为"hadoop"
System.setProperty("HADOOP_USER_NAME","hadoop");
// 创建Hadoop配置对象
Configuration configuration= new Configuration();
// 设置默认的文件系统为HDFS,并指定HDFS的地址
configuration.set("fs.defaultFS","hdfs://192.168.1.200:8020");
// 创建一个Job对象
Job job = Job.getInstance(configuration);
// 设置Job的Mapper类
job.setMapperClass(WordCountMapper.class);
// 设置Job的Reducer类
job.setReducerClass(WordCountReducer.class);
// 设置Mapper输出的Key和Value类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
// 设置Reducer输出的Key和Value类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
// 获取FileSystem对象
FileSystem fs=FileSystem.get(new URI("hdfs://192.168.1.200:8020"),configuration,"hadoop");
// 设置输出路径
Path output=new Path("/map/output");
// 如果输出路径已存在,则删除它
if(fs.exists(output)){fs.delete(output,true);
}
// 设置作业的输入路径
FileInputFormat.setInputPaths(job,new Path("/map/input"));
// 设置作业的输出路径
FileOutputFormat.setOutputPath(job,new Path("/map/output"));
// 提交作业并等待作业完成
boolean result=job.waitForCompletion(true);
// 根据作业执行结果退出程序,成功返回0,失败返回-1
System.exit( result ? 0:-1);

详细见:Hadoop基础-07-MapReduce概述
https://blog.csdn.net/jankin6/article/details/109060857


http://www.ppmy.cn/devtools/107395.html

相关文章

热门跨境平台的IP代理如何选择?入局IP知识

在飞速发展的数字时代,拥有一个好的IP地址可以说是开展网络业务成功的关键之一。无论你是想在TikTok、Instagram还是Facebook上发展自己的业务,IP地址的选择都会对你的运营产生重要影响。让我们来深入了解一下什么是原生IP和住宅IP,以及它们对…

Datawhale X 李宏毅苹果书 AI夏令营|机器学习基础之线性模型

1. 线性模型 线性模型是机器学习中最基础和常见的模型之一。在线性模型中,预测变量(输入特征)和目标变量(输出)之间的关系被建模为一个线性组合。数学形式可以表示为: 其中:x 是输入特征向量&a…

OHIF Viewer 基础查看器的相关

新版的ohif 封装的很好,跟3.8版本的 viewer 修改成app ui组件进行了整改 3.9版本的更新 OHIF Viewer 3.9 相对于 3.8 版本进行了多项改进和更新。以下是一些主要的改进点: 1. 性能优化: 在 3.9 版本中,团队对性能进行了优化&#xff0…

【docker1】docker的下载安装、容器与docker、Dockerfile的写法

1 容器 1、容器1、什么是容器?用镜像启动的一个对外可以提供服务的进程即为容器。1、容器的本质是进程2、容器是由镜像创建的,跟镜像中保存的内容完全一致。3、容器与容器之间是完全隔离的(可以理解为国中之国)4、每一个容器都需…

AI安全立法:加州新法案的争议与未来影响

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

2024.9.4

#include <iostream> #include <cstring> using namespace std;template<typename T> class Stack { private:int len;int count 0;T *stack; public:Stack():len(10) //无参构造{stack new T[len];stack[len] {0};}Stack(int len):len(len) …

2021年大厂Java面试题(基础+框架+系统架构+分布式+实战)

Java线程的状态 进程和线程的区别&#xff0c;进程间如何通讯&#xff0c;线程间如何通讯 HashMap的数据结构是什么&#xff1f;如何实现的。和HashTable&#xff0c;ConcurrentHashMap的区别 Cookie和Session的区别 索引有什么用&#xff1f;如何建索引&#xff1f; Arra…

浅聊kubernetes RBAC

RBAC 基于角色&#xff08;Role&#xff09;的访问控制&#xff08;RBAC&#xff09;是一种基于组织中用户的角色来调节控制对计算机或网络资源的访问的方法。 RBAC 鉴权机制使用 rbac.authorization.k8s.io API 组来驱动鉴权决定&#xff0c; 允许你通过 Kubernetes API 动态…