MapReduce学习与理解

server/2024/10/16 2:26:08/

MapReduce为google分布式三驾马车之一。分别为《The Google File System》、《MapReduce: Simplified Data Processing on Large Clusters》、《Bigtable: A Distributed Storage System for Structured Data》。三遍论文奠定了分布式存储和计算的基础。本篇文章来说说mapreduce.

一、MapReduce介绍

  mapreduce将复杂的、在大规模集群的并行运算抽象到两个函数:Map和Reduce。核心思想是“分而治之”。由传输<key,value>类型的键值对到Map,map则对这些数据根据map函数做相应的处理,输出为<key,List<value>>的键值对,再到reduce中对value做最后的统计。这样说有点抽象。我在另一篇文章中看见一个很形象的例子

        我们的目的是做辣椒酱,但是有很多种类比如:洋葱辣椒酱、番茄辣椒酱、青椒辣椒酱等,在输入到map的过程就是将大量的原粮(包含洋葱、番茄、青椒等的混合)放入map中,而map会根据这些品种,分类、并且将其分割完成。那么此时的输出就是<洋葱,List<洋葱瓣>>、<番茄、List<番茄块>>等,此时再作为reduce的输入,reduce则负责最终的搅拌过程,最终输出为各种辣椒酱。这个例子就很形象。

1.Map和Reduce函数表

函数输入输出说明
Map        

<k1,v1>:

<1,hello world>

<2,hello Jack>

List(<k2,v2>):

<hello,1>

<world,1>

<hello,1>

<Jack,1>

1.将输入的数据进一步解析成<key,value>对,输入Map函数中进行处理

2.经过map函数输出为一批键值对。此时为中间结果

Reduece

<k2,List<v2>>

<hello,{1,1}>

<world,1>

<Jack,1>

<k3,v3>

<hello,2>

<world,1>

<Jack,1>

reduce得到map输出的中间结果,合并计算到最后的结果

在这个表中是以单词划分为例,可能会疑惑为什么map的输出为LIst的键值对,而reduce的输入却是<k2,List>,这就涉及到MapReduece的管理系统,别急继续往下看。

二、MapReduce体系结构

1.client

        用户编写的MapReduce程序通过Client提交到JobTracker端,用户可以通过Client提供的接口查看作业运行状态

2.JobTracker(也就是Master)

        JobTracker负责资源监控和作业调度JobTrack监控所有的TaskTracker与Job的健康情况,通过心跳机制来检测,一旦发生问题则重新将map中处理的任务重新去完成,因为map完成的任务会存放在他本地的磁盘中,无法得到。那么Master会重新安排其他的Map去做。而reduce失败之后,完成的任务不会再重新进行,它会存放在HDFS中。JobTracker会跟踪任务的执行进度、资源使用量等问题,并将这些信息告诉任务调度器(TaskScheduler),TaskScheduler就会调度任务。

3.TaskTracker

        TaskTracker会周期性地通过“心跳”将本地节点上的情况告诉给JobTracker,同时执行相应的操作。TaskTracker使用“slot”等量划分本节点上资源量(CPU、内存等)。一个Task获取到slot后才有机会运行,而Hadoop调度器的作用就是将各个TaskTracker上空闲的slot分配给Task使用。slot分为Map slot和Reduce slot 两种分别提供给MapTask和Reduce Task使用。

4.Task

        Task分为Map Task 和 Reduce Task两种,均由TaskTracker启动

5.TaskScheduler则负责任务的分发以及错误发生后未完成的task的重新分发。

2.1MapReduce各个执行阶段

其中Shuffile则负责将将map的输出,经过分区、排序、合并过程输出一个分区有序的文件。比如每个URL为key的键值对,将他们的value合并起来组成一个,统一由某个reduce来进行处理,并且也是有序的。这就解决了前面所说的问题。

MapReduce应用程序执行过程:

这里参考大佬的博客:MapReduce基本原理及应用 - 黎先生 - 博客园 (cnblogs.com)

同时最好可以读一遍原论文,它不管是整个框架,还是容错的考虑都是有提到的,可以更加深入的了解整个MapReduce:rfeet.qrk (mit.edu)


http://www.ppmy.cn/server/126856.html

相关文章

【redis-05】redis保证和mysql数据一致性

redis系列整体栏目 内容链接地址【一】redis基本数据类型和使用场景https://zhenghuisheng.blog.csdn.net/article/details/142406325【二】redis的持久化机制和原理https://zhenghuisheng.blog.csdn.net/article/details/142441756【三】redis缓存穿透、缓存击穿、缓存雪崩htt…

Debian 配置 Python 开发与运行环境

配置 Python 开发与运行环境。 1.3.1. Debian下的安装与配置 Debian 是一个致力于自由软件开发并宣扬自由软件基金会理念的自愿者组织。 Debian 计划创建于 1993 年。当时&#xff0c;Ian Murdock 发出一份公开信&#xff0c; 邀请软件开发者们参与构建一个基于较新的 Linux …

c++ arrayfire库 矩阵分块

void af_test4() {af::array S af::randu(4, 4, c32); //4*4的complex float数组af_print(S);af::array S11 S(af::seq(2), af::seq(2)); // 左上分块af_print(S11);af::array S12 S(af::seq(2), af::seq(2, af::end)); // 右上分块af_print(S12);af::array S21 S(af::seq…

unixODBC编程(九)分片查询长数据

当一个表中有长数据类型的字段&#xff0c;比如LONG数据类型&#xff0c;LONG RAW数据类型&#xff0c;字段存储的数据可能比较大&#xff0c;不可能在程序中定义这样大的缓冲区&#xff0c;这时就需要一部分一部分的读取数据&#xff0c;比如字段中存放了一个大的图片数据&…

Rust Web开发常用库

本集合中所有库都是在开源项目中广泛使用且在2024年积极维护的库&#xff0c;排名靠前的库是当前使用比较广泛的&#xff0c;不全面但够用 Rust异步运行时 tokio&#xff1a;异步运行时 async_std&#xff1a;与标准库兼容性较强的运行时 monoio&#xff1a;字节开源 smol…

SpringCloud入门(十)统一网关Gateway

一、网关的作用 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目&#xff0c;该项目是基于 Spring 5.0&#xff0c;Spring Boot 2.0 和 Project Reactor 等响应式编程和事件流技术开发的网关&#xff0c;它旨在为微服务架构提供一种简单有效的统一的 API 路由管理方式。 …

基于RBAC的通用权限管理系统的详细分析与实现(实现篇-Spring Security安全管理框架)

安全可以说是公司的红线了&#xff0c;一般项目都会有严格的认证和授权操作&#xff0c;在Java开发领域常见的安全框架有Shiro和Spring Security。 Shiro是一个轻量级的安全管理框架&#xff0c;提供了认证、授权、会话管理、密码管理、缓存管理等功能。 Spring Security是一…

AQS原理(AbstractQueuedSynchronizer)

本篇为 [并发与多线程系列] 的第四篇&#xff0c;对应Java知识体系脑图中的 并发与多线程 模块。 这一系列将对Java中并发与多线程的内容来展开。 AQS原理&#xff08;AbstractQueuedSynchronizer&#xff09; AQS原理&#xff08;AbstractQueuedSynchronizer&#xff09;AQS整…