1.小文件
影响:
元数据的瓶颈在于文件的数量,无论单个文件的大小
资源大材小用
优化
计算:使用combininputformat提前合并小文件
JVM重用
存储:归档
2.map端
环形缓冲区-区域大小、溢写比列
提前combiner,做reduce操作
3.reduce端
合理控制map、reduce任务数
允许map、reduce并行
不用reduce
4.io
提前combiner,减少shulffle网络IO
数据压缩、双刃剑
5.总体
增加资源,map端、reduce端的cpu、内存