首先是关于Sparks数据本地性是在任务调度将诶单的TaskScheduler确定的,巨日就是TaskSc会获取到分区的位置信息,进而确定每个task的最佳执行位置,会由有限将Task分邓培到数据所在节点,进而减少网络传输,如果首选的位置出现了故障或者繁忙,则会调整选择放宽本地性的要求。
那这里就涉及了数据本地性有哪几种,Task调度选择的有限是什么,首先选择缓存数据在同一个JVM进行的执行器,这种是默认的,如果不行,那几下里选择的就是在同一个物理节点上的执行器,然后再是选择在同一个几家上的不同及诶点,然后就收无位置偏好,然后就随意了。