一、Map阶段

1.增大缓冲区的大小：默认100M,可以改为200

2.增大缓冲区的溢写百分比：默认0.8，可以改为0.9

3.减少溢写文件的merge次数

4.采用combiner提前预聚合，减少IO。（不影响业务逻辑的前提下，只能加减，不能做乘除等复杂聚合）

二、Reduce阶段

1.合理设置map和reduce数：两个都不能设置太少，也不能设置太多。

太少，会导致task等待、延长处理时间

太多，会导致map,reduce任务之间竞争资源，造成处理超时等错误

2.设置map、reduce共存：调整 slowstart.completedmaps 参数，使map运行到一定程度后，reduce就开始运行，减少reduce的等待时间

3.规避使用reduce:因为reduce在用于连接数据集的时候会产生大量的网络消耗

4.增加每个reduce去map找中拿数据的并行度

5.增大reduce段存数据内存的大小

三、IO传输

采集数据压缩的方式，减少IO时间。

1.map输入端：主要考虑数据量大小和切片，支持切片的有lzo,Bzip2。Lzo要想支持切片必须创建索引

2.map输入端：主要考虑速度，如：snappy,lzo

3.reduce输出端：主要看具体需求，列如：如果有下一个MR阶段，就要考虑切片，永久保存就考虑压缩率比较大的gzip

四、整体

1.yarn.nodemanager.resouce.memory-mb：nodemanager默认内存8G。需要根据服务器实际配置灵活调整，例如128G内存，配置为100G内存左右

2.yarn.scheduler.maximum-allocation-mb：单任务默认内存8G。需要根据该任务的数据量灵活调整，例如128m数据，配置1G内存

3.mapreduce.map.memory.mb：默认内存大小为1G。控制分配给MapTask内存上限，如果超过会kill掉进程（报：Container is running beyond physical memory limits. Current usage:565MB of512MB physical memory used；Killing Container）。

如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加MapTask内存，最大可以增加到4-5g。

4.mapreduce.reduce.memory.mb：默认内存大小为1G。控制分配给ReduceTask内存上限。如果数据量是128m，正常不需要调整内存；如果数据量大于128m，可以增加ReduceTask内存大小为4-5g。

5.mapreduce.map.java.opts：控制maptask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）

6.mapreduce.reduce.java.opts：控制reducetask堆内存大小。（如果内存不够，报：java.lang.OutOfMemoryError）

7.增加maptask和reducetask的CPU核数

8.增加每个container的CPU核数和内存

9.在hdfs-site.xml文件中配置多目录

10.dfs.namenode.handler.count=20*log2(cluster size)： namenode的一个工作线程池，用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。