【Hadoop】- MapReduce概述[5]

devtools/2024/11/14 4:37:35/

目录

前言

一、分布式计算框架 - MapReduce

二、MapReduce执行原理


前言

MapReduce是一种分布式计算框架,由Google开发。它的设计目标是将大规模数据集的处理和生成任务分布到一个由廉价计算机组成的集群中。

在MapReduce模型中,输入数据被分割成若干小块,并在集群中的多个节点上并行处理。每个节点执行"map"函数,将输入数据转换为一组键值对。这些键值对将进行洗牌和排序,并将生成的中间数据发送到"reduce"函数。

"reduce"函数将中间数据进行处理,将其合并为最终结果或输出。它根据所需的计算或分析对数据进行聚合和分析。

MapReduce提供了容错机制,系统可以通过将工作负载重新分配到其他节点来自动处理单个节点的失败。它还提供了可扩展性,可以通过添加更多的节点来处理更大的数据集或增加的处理需求。

MapReduce广泛用于大数据处理应用,例如分布式网络索引、日志分析和数据挖掘。它对其他数据处理系统的发展产生了影响,如Apache Hadoop。

一、分布式计算框架 - MapReduce

MapReduce是“分散”->“汇总”模式的分布式计算框架,可供开发人员开发相关程序进行分布式数据计算。MapRduce提供了2个编程接口:

  • Map
  • Reduce

其中

  • Map功能接口提供了“分散”的功能,有服务器分布式对数据进行处理
  • Reduce功能接口提供了“汇总”的功能,将分布式的处理结果汇总统计

用户如需使用MapReduce框架完成自定义需求的程序开发,只需要使用Java、Python等编程语言,实现Map Reduce功能接口即可。

二、MapReduce执行原理

现在,我们借助一个案例,简单分析MapReduce是如何完成分布式计算的。

假设有如下文件,内部记录了许多的单词。并且已经开发好了一个MapReduce程序,功能是统计每个单词出现的次数。

假设有4台服务器用以执行MapReduce任务,可以3台服务器执行Map,1台服务器执行Reduce

总结

1、什么是MapReduce

  • MapReduce是Hadoop中的分布式计算组件
  • MapReduce可以以分散->汇总模式执行分布式计算任务

2、MapReduce的主要编程接口

  • map接口,主要提供“分散”功能,有服务器分布式处理数据
  • reduce接口,主要提供“汇总”功能,进行数据汇总统计得到结果
  • MapReduce可供Java、Python等语言开发计算程序


http://www.ppmy.cn/devtools/15222.html

相关文章

不碎片化学习,尽量用整块的时间系统化学习

从高中毕业之后,我们好像就很难再继续那种系统化的学习,甚至失去了自我知识构建的能力。然而,真正的理解和掌握知识需要深入和连贯,这正是系统化学习的优势所在。 系统化学习的重要性 全面理解:系统化学习能够帮助我…

第三章 循环

第三章 循环 常用循环有:for,while,until,select,其中前三种工作中最常用。 1,for循环语法结构 功能:主要用于固定次数的循环,而不能用于守护进程及无限循环。 #第一种格式&…

程序员裁员潮:技术变革下的职业危机探讨及分析

背景 一对来自中国的工程师夫妇在美国洛斯阿图市不幸身亡,疑因谷歌裁员致悲剧发生。这对夫妇在谷歌公司担任高级工程师,他们的离世无疑给公司带来了巨大的损失。同时,这也引起了人们对职场环境的关注,尤其是对于外籍人士在职场中的…

LabVIEW和MES系统的智能化车间数据对接

LabVIEW和MES系统的智能化车间数据对接 随着工业4.0时代的到来,智能制造成为推动制造业高质量发展的重要手段。其中,数字化车间作为智能制造的重要组成部分,其设计与实现至关重要。在数字化车间环境下,如何利用LabVIEW软件与MES系…

新恒盛110kV变电站智能辅助系统综合监控平台+道巡检机器人

江苏晋控装备新恒盛化工有限公司是晋能控股装备制造集团有限公司绝对控股的化工企业,公司位于江苏省新沂市。新恒盛公司40•60搬迁项目在江苏省新沂市经济开发区化工产业集聚区苏化片区建设,总投资为56.64亿元,该项目是晋能控股装备制造集团重…

学习Docker笔记

在23号刚刚学完新版本的docker还想说回去继续学习老版本的springcloud课程里面的docker 结果一看黑马首页新版本课程出了,绷不住了。以下是我学习新版本docker的笔记,记录了我学习过程遇到的各种bug和解决,也参考了黑马老师的笔记&#xff1a…

(C++) 内类生成智能指针shared_from_this介绍

文章目录 &#x1f601;介绍&#x1f914;类外操作&#x1f605;错误操作&#x1f602;正确操作 &#x1f914;类内操作&#x1f62e;std::enable_shared_from_this<>&#x1f62e;奇异递归模板 CRTP&#xff08;Curiously Recurring Template Pattern&#xff09;&#…

响应工具类

响应工具类 public class DataResult {/*** 请求响应code&#xff0c;0为成功 其他为失败*/private int code;/*** 响应异常码详细信息*/private String msg;/*** 需要返回的数据*/ private Object data;private boolean success false;public DataResult(int code, Objec…