【大数据之Hadoop】三十二、MapReduce生产经验

news/2025/2/11 5:03:58/

1 MapReduce跑的慢的原因

MapReduce程序效率的瓶颈在于两点:
1)计算机性能:CPU、内存、磁盘、网络
2)I/O操作优化
(1)数据倾斜
(2)Map运行时间太长,导致Reduce等待过久
(3)小文件过多

2 MapReduce常用调优参数

MapTask阶段:
在这里插入图片描述
ReduceTask阶段:
在这里插入图片描述

3 MapReduce数据倾斜问题

大部分任务运行结束,只有部分任务还在运行,且时间很长。通常数据倾斜发生在Reduce阶段。
数据频率倾斜——某一个区域的数据量要远远大于其他区域。
数据大小倾斜——部分记录的大小远远大于平均值。
减少数据倾斜的方法:
(1)首先检查是否空值过多造成的数据倾斜
生产环境,可以直接过滤掉空值;如果想保留空值,就自定义分区,将空值加随机数打散。最后再二次聚合。
**(2)能在map阶段提前处理,最好先在Map阶段处理。**如:Combiner、MapJoin。
(3)设置多个reduce个数。


http://www.ppmy.cn/news/71993.html

相关文章

【总结】Numpy2

Numpy 1. 数组和数的运算 array1 np.arange(1,10) array1 # array([1, 2, 3, 4, 5, 6, 7, 8, 9]) array1 10 # array([11, 12, 13, 14, 15, 16, 17, 18, 19]) array1 - 10 # array([-9, -8, -7, -6, -5, -4, -3, -2, -1]) array1 * 10 # array([10, 20, 30, 40, 50, 60, 70…

20230516----重返学习-react基础-业务开发思路

day-071-seventy-one-20230516-react基础-业务开发思路 react基础 MVVM(Vue) 与 MVC(React) MVVM: Model View ViewModel,双向数据驱动。 基本构成: Model:数据层View:视图层ViewModel:视图模型&#xff0…

【Selenium】解决 Error: LavaMoat 相关报错

解决使用 selenium 调用 metamask 进行 dapp 自动化测试报错问题 author: jwensh date: 20230517 unknown error: Runtime.callFunctionOn threw exception: Error: LavaMoat - property “JSON” of globalThis is inaccessible under scuttling mode. To learn more visit ht…

[C++]22种设计模式的C++实现大纲

前言 最近看遍全网,准备整理一套较好上手的设计模式文章,以便后续复习到处翻找,在此记录一下,如有侵权可以联系删除, 每天更新一篇,直到更新完 1. 代码仓库 https://github.com/TOMO-CAT/CppDesignPattern 2. 前置知…

TCL字符串操作

format命令 因为 TCL 把所有的输入都当作字符串看待,所以 TCL 提供了较强的字符串操作功能,TCL 中与 字符串操作有关的命令有:string、format、regexp、regsub、scan 等。 语法:format formatstring ?vlue value...? format …

图形编程周刊(2023.001)

图形编程周刊(2023.001) key: webgpu webgl 3d webgis three.js cesium.js 这里是力博荣(Libaro)三维可视化带来的 图形编程周刊, 争取每周五发布。 更新源位置: https://gitee.com/lianming/graphics-programming-weekly/blob/master/2023001/2023001.md 发现的代码 1、th…

PMP课堂模拟题目及解析(第10期)

91. 在项目执行阶段,一名项目干系人要求项目经理加入一个新过程的优化。项目经理应该怎么做? A. 执行实施整体变更控制过程。 B. 与过程专家一起审查项目。 C. 将优化项目分配给团队。 D. 拒绝范围蔓延企图。 92. 项目经理要求团队提供对项目应急计…

Web基础 ( 三 ) Bootstrap

3.Bootstarp 3.1.什么是Bootstrap Bootstrap来自 Twitter,是目前最受欢迎的前端UI框架。 Bootstrap 是基于 HTML、CSS、JQuery 的,它简洁灵活,使得 Web 开发更加快捷。 主要特点是 整合HTML和CSS技术,提供了大量应用组件, 简化了响应式布…