大数据学习(16)-mapreduce详解

news/2024/11/23 17:04:59/

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


在MapReduce中,Map阶段和Reduce阶段分别执行以下任务:

  1. Map阶段:Map阶段的任务是处理输入数据并生成一系列的键值对(key/value pairs)。Map函数会对每个输入数据执行操作,并将结果写入到一个本地磁盘上的临时文件中。Map阶段的任务是在每个单独的Map任务中完成的,这些Map任务是在Map阶段启动的。

在Hadoop MapReduce中,Map阶段的任务如下:

  • 从HDFS中的文件读取数据。
  • 将数据拆分成键值对。
  • 对每个键值对执行Map函数,生成新的键值对。
  • 将生成的键值对写入到本地磁盘上。
  1. Reduce阶段:Reduce阶段的任务是处理Map阶段生成的键值对并生成最终的输出结果。Reduce函数会对每个键执行操作,并将结果写入到最终的输出文件中。Reduce阶段的任务是在每个单独的Reduce任务中完成的,这些Reduce任务是在Reduce阶段启动的。

在Hadoop MapReduce中,Reduce阶段的任务如下:

  • 从本地磁盘上读取Map阶段的输出数据。
  • 将数据合并成一个大文件。
  • 对合并后的数据进行排序。
  • 对排序后的键值对执行Reduce函数。
  • 将输出的键值对写入到HDFS文件中。

在Hive中,当我们需要进行分组聚合操作时,通常会使用MapReduce框架来处理大规模的数据。传统的方法是在Map阶段将数据按照分组字段进行分区,然后将结果发送到Reduce阶段进行聚合运算。这种方法需要在Reduce阶段处理所有分组的 数据,因此当数据量很大时,Reduce阶段可能会成为瓶颈。

为了解决这个问题,Hive引入了map-side聚合的优化方法。在map-side聚合中,我们在Map阶段不仅仅只是将数据按照分组字段进行分区,而是利用一个hash table来维护每个分组的数据。在遍历数据的过程中,我们会对每个分组的数据进行部分的聚合运算,然后将聚合的结果存储在hash table中。

接下来,我们将聚合的结果按照分组字段进行分区,并将每个分区的结果发送到Reduce阶段。在Reduce阶段,我们只需要对每个分组的数据进行最终的聚合运算,这样就可以大大减少需要处理的数据量。因此,这种方法可以有效减少shuffle的数据量,提高分组聚合运算的效率。

启用map-side聚合的方法是设置hive.map.aggr=true参数。此外,还可以通过设置hive.map.aggr.hash.min.reduction参数来检测源表数据是否适合进行map-side聚合。这个参数用于指定当源表数据中具有相同分组字段值的行数小于某个阈值时,才适合使用map-side聚合。


http://www.ppmy.cn/news/1166540.html

相关文章

059:mapboxGL监听键盘事件,通过eastTo控制左右旋转

第059个 点击查看专栏目录 本示例是介绍演示如何在vue+mapbox中监听键盘事件,通过eastTo控制左右旋转。 本例通过easeTo方法来加减一定数值的bearing角度,通过.addEventListener的方法来监听键盘的按键动作。这里一定要设置interactive: false, 否则展现不出来旋转效果。 直…

iOS 13以下系统,使用iOS QQ 登录 SDK 崩溃问题

最近用iPhone 6p 系统:12.5.4 调用QQ三方登录,出现崩溃到初始化QQ SDK的位置 在询问了QQ官方客服后,得到了答复,可以放弃治疗了

【华为OD机试】HJ26 字符串排序

描述 编写一个程序,将输入字符串中的字符按如下规则排序。 规则 1 :英文字母从 A 到 Z 排列,不区分大小写。 如,输入: Type 输出: epTy 规则 2 :同一个英文字母的大小写同时存在时,…

【Nginx34】Nginx学习:安全链接、范围分片以及请求分流模块

Nginx学习:安全链接、范围分片以及请求分流模块 又迎来新的模块了,今天的内容不多,但我们都进行了详细的测试,所以可能看起来会多一点哦。这三个模块之前也从来都没用过,但是通过学习之后发现,貌似还都挺有…

无人机电力巡检:国网安徽实际案例解析

在科技快速发展的今天,传统行业正在经历前所未有的转型。电力巡检,这一看似传统且乏味的任务,却因为无人机技术的介入而焕发新生。今天,让我们深入了解一个具体的案例,探索无人机如何革新电力巡检。 案例背景&#xff…

精讲stable diffusion的controlNet插件

controlNet插件是stable diffusion的一个重要插件,甚至可以说正是因为有了controlNet插件,stable diffusion才会具有midjourney所不具备的独特魅力! 我们今天就一起来学习下controlNet插件的安装和每个模型的用法 插件主页 独立的controlN…

基于nodejs+vue 校园通勤车系统

但是管理好校园通勤车可视化又面临很多麻烦需要解决, 信息化已经成为主流,开发一个校园通勤车可视化系统小程序一方面的可能会更合乎时宜,困扰管理层的许多问题当中,校园通勤车 管理也是不敢忽视的一块。另一方面来说也可以提高在校园通勤车可视化管理方面的效率给相关管理人员…

【算法|动态规划No.25】leetcode LCR 020. 回文子串

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【LeetCode】 🍔本专栏旨在提高自己算法能力的同时,记录一下自己的学习过程,希望…