昨天,在执行spark-sql时,查询数据量超过1000万行,数据量大小7.6G,出现系统盘占用突然变高的情况,Job任务在运行过程中产生大量的临时目录位置,导致某个分区磁盘写满,主要原因spark运行产生临时目录的默认路径/tmp/spark检查为 /tmp 目录下,spark生成的临时目录占用了大量的硬盘空间,生成的spark临时文件总共超过19了。
解决方案为:
1、删除 /tmp/spark* 的文件
rm -rf /tmp/spark*
2、修改spark执行时临时目录的配置,在 conf 目录下的spark-defaults.conf的配置文件,增加如下一行:
spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp
说明:可配置多个目录,以 “,” 分隔。
3、也配置spark-env.sh下增加
export SPARK_LOCAL_DIRS=spark.local.dir /diskb/sparktmp,/diskc/sparktmp,/diskd/sparktmp,/diske/sparktmp,/diskf/sparktmp,/diskg/sparktmp
如果spark-env.sh与spark-defaults.conf都配