mapreduce优化方法

news/2025/1/6 7:00:53/

1)数据输入:

        1)合并小文件:在执行mr任务前将小文件进行合并,大量的小文件会产生大量的map任务,增大map任务装载次数,而 任务的装载比较耗时,从而导致 mr 运行较慢。
        2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。

2)map阶段

        1)减少spill次数:通过调整io.sort.mb及sort.spill.percent参数值,增大触发spill的内存上限,减少spill次数,从而减少磁
盘 IO。
        2)减少merge次数:通过调整io.sort.factor参数,增大merge的文件数目,减少merge的次数,从而缩短mr处理时间。
        3)在 map 之后先进行combine处理,减少 I/O。

3)reduce阶段

        1)合理设置map和reduce数:两个都不能设置太少,也不能设置太多。太少,会导致task等待,延长处理时间;太多, 会导致 map、reduce任务间竞争资源,造成处理超时等错误。
        2)设置map、reduce共存:调整slowstart.completedmaps参数,使map运行到一定程度后,reduce也开始运行,减少 reduce的等待时间。
        3)规避使用reduce,因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。
        4)合理设置reduc端的buffer,默认情况下,数据达到一个阈值的时候,buffer中的数据就会写入磁盘,然后reduce会从
        磁盘中获得所有的数据。也就是说,buffer和reduce是没有直接关联的,中间多个一个写磁盘->读磁盘的过程,既然有这个弊端, 那么就可以通过参数来配置,使得buffer中的一部分数据可以直接输送到reduce,从而减少IO开销: mapred.job.reduce.input.buffer.percent,默认为0.0。当值大于0的时候,会保留指定比例的内存读buffer中的数据直接拿给reduce 使用。这样一来,设置buffer需要内存,读取数据需要内存,reduce计算也要内存,所以要根据作业的运行情况进行调整。

4)IO传输

        1)采用数据压缩的方式,减少网络IO的的时间。 安装Snappy和LZOP压缩编码器。
        2)使用SequenceFile二进制文件

5)数据倾斜问题

        1)数据倾斜现象
                数据频率倾斜——某一个区域的数据量要远远大于其他区域。
                数据大小倾斜——部分记录的大小远远大于平均值。
        2)如何收集倾斜数据
        在reduce方法中加入记录map输出键的详细情况的功能。
public static final String MAX_VALUES = "skew.maxvalues"; 
private int maxValueThreshold; 
@Override
public void configure(JobConf job) { maxValueThreshold = job.getInt(MAX_VALUES, 100); 
} @Override
public void reduce(Text key, Iterator<Text> values,
OutputCollector<Text, Text> output, 
Reporter reporter) throws IOException {int i = 0;
while (values.hasNext()) {values.next();
i++;
}if (++i > maxValueThreshold) {log.info("Received " + i + " values for key " + key);}
}
        3)减少数据倾斜的方法
                方法1:抽样和范围分区
                        可以通过对原始数据进行抽样得到的结果集来预设分区边界值。
                方法2:自定义分区
                另一个抽样和范围分区的替代方案是基于输出键的背景知识进行自定义分区。例如,如果map输出键的单词来源于一本书。 其中大部分必然是省略词(stopword)。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而将其他的 都发送给剩余的reduce例。
                方法3:Combine
使用Combine可以大量地减小数据频率倾斜和数据大小倾斜。在可能的情况下,combine的目的就 是聚合并精简数据。
结语:小编能力有限 欢迎大家多多指教

http://www.ppmy.cn/news/70056.html

相关文章

Spring Boot异常处理

目录 Spring Boot异常处理 介绍 拦截器VS 过滤器 自定义异常页面 自定义异常页面 代码实战 需求 代码实现 创建MyErrorController类来模拟异常错误 完成测试 全局异常 说明 全局异常-应用实例 创建GlobalExceptionHandler.java 创建对应的视图地址global.html 完成…

【MySQL】浅谈事务

哈喽&#xff0c;大家好~我是你们的老朋友&#xff1a;保护小周ღ 谈起 “事务”&#xff0c;可能大家都会在心中出现一个大大的 &#xff1f;&#xff0c;博主的理解——事务就是解决 MySql数据库在应对多线程环境下针对同一存储空间的数据修改引起的数据安全问题的一种机制…

【人工智能】— 贝叶斯网络、概率图模型、全局语义、因果链、朴素贝叶斯模型、枚举推理、变量消元

【人工智能】— 贝叶斯网络 频率学派 vs. 贝叶斯学派贝叶斯学派Probability&#xff08;概率&#xff09;:独立性/条件独立性&#xff1a;Probability Theory&#xff08;概率论&#xff09;:Graphical models &#xff08;概率图模型&#xff09;什么是图模型&#xff08;Grap…

【开发者指南】如何在MyEclipse中使用HTML或JSP设计器?(上)

MyEclipse v2022.1.0正式版下载 一、HTML & JSP 可视化设计器 本文简要介绍了 MyEclipse HTML 和 JSP Web 设计器的概念、功能和基本操作过程。这两个设计器具有相似的功能和相同的操作模型&#xff0c;但本文为专门针对其类型的内容。本文档中的示例是使用 MyEclipse HT…

“虐人的”双亲委派机制

这些问题&#xff0c;看看你能回答上来多少个&#xff1a; 1、什么是双亲委派&#xff1f; 2、为什么需要双亲委派&#xff0c;不委派有什么问题&#xff1f; 3、”父加载器”和”子加载器”之间的关系是继承的吗&#xff1f; 4、双亲委派是怎么实现的&#xff1f; 5、我能不能…

vue3.3最新发布defineProps,generic,defineEmits,defineSlots教程

vue3.3最新发布defineProps,generic,defineEmits,defineSlots教程 文章目录 vue3.3最新发布defineProps,generic,defineEmits,defineSlots教程vue3.3已更新defineProps的改进通用类型 genericdefineEmits 的改进defineSlots 的使用 以下内容是目前vue3.3版本部分发布内容的比较…

Cesium入门之六:Cesium加载影像图层(ArcGIS、Bing、Mapbox、高德地图、腾讯地图、天地图等各类影像图)

Cesium加载影像图层 一、ImageryLayer类常用属性常用方法 二、ImageryLayerCollection类常用属性常用方法 三、ImageryProvider类常用属性常用方法 四、ImageryProvider子类1. ArcGisMapServerImageryProvider加载ArcGIS地图服务 2. BingMapsImageryProvider加载BingMap地图服务…

Seata之 Win系统和 Linux系统搭建

文章目录 1 Seata搭建1.1 Linux环境搭建1.1.1 准备工作1.1.2 下载1.1.3 建表1.1.4 配置 nacos1.1.4.1 新建命名空间1.1.4.2 上传配置至Nacos配置中心1.1.4.3 不上传而使用配置 1.1.5 修改 appplication.yml1.1.5.1 seata.store1.1.5.2 seata.config1.1.5.3 seata.registry 1.1.…