1、使用concatenate(只支持RCFile和ORC格式)
2、减少map数量,调整参数:输入合并文件相关的参数
3、减少reduce的数量(例如直接设置reduce为xx个、或者设置reduce的大小,系统自动根据大小确定reduce的个数)
4、使用distribute by,将数据均衡的分配到reduce中
5、归档合并文件
参考资料 数仓面试高频考点--解决hive小文件过多问题
1、使用concatenate(只支持RCFile和ORC格式)
2、减少map数量,调整参数:输入合并文件相关的参数
3、减少reduce的数量(例如直接设置reduce为xx个、或者设置reduce的大小,系统自动根据大小确定reduce的个数)
4、使用distribute by,将数据均衡的分配到reduce中
5、归档合并文件
参考资料 数仓面试高频考点--解决hive小文件过多问题