hdfs迁移最常用的就是distcp,从老集群迁移到新集群。
distcp hdfs://xxxx源端 hdfs://xxx目标端
默认他会进行CRC校验,如果此时出现了数据新增,那么迁移一定会失败,在业务没有割接前,我们通常只是迁移历史数据,所以不需要校验,那就得加上-skipcrccheck
这样他就不会去对比源端是否在迁移过程中变更,等业务交接完,停止源端,再迁移增量数据即可
在Hadoop的HDFS(分布式文件系统)中,-skipcrccheck
命令用于在读取数据时跳过CRC(循环冗余检查)检查。CRC是一种用于检测数据在存储或传输过程中是否发生变更的方法。在某些情况下,比如数据已知是正确的,或者你确定不需要CRC检查的精确性,你可能想要跳过这个步骤以加快读取速度。