记录一次Sqoop从MySQL导入数据到Hive问题的排查经过

news/2025/2/3 2:59:56/

个人博客地址:记录一次Sqoop从MySQL导入数据到Hive问题的排查经过 | 一张假钞的真实世界

问题描述

MySQL中原始数据有790W+的记录数,在Sqoop抽取作业成功的情况下在Hive中只有500W左右的记录数。

排查过程

数据导入脚本Log

通过Log可以发现以下信息:

  1. 该Sqoop任务被分解为4个MapTask。
  2. MapTask执行期间有异常,是网络异常导致MySQL连接不成功。
  3. Sqoop任务对应的MR执行过程中总的被调起9个MapTask,其中3个失败、2个被kill,理论上剩余的4个MapTask是成功执行的。
  4. Sqoop导入对应的MR只有MapTask,且MapTask的数据记录数为790W+。所以,单纯看MR的输出是正常的。
  5. Sqoop导入完成后,紧跟着有一个读取Sqoop目标表数据的insert overwrite的操作。该操作只被分解为2个MapTask,说明原数据文件只有两个块。
  6. 根据以上信息说明Sqoop之后确实只生成了2个数据文件,有两个文件丢失了。

详细原始Log信息见附件:Sqoop执行日志

查看Sqoop任务对应MR的执行日志

根据上面的Log中的信息,从HDFS上查找对应的日志。Yarn所有的应用执行日志在HDFS的/data/hadoop/yarn-logs/hadoop/logs/目录下。从该目录下查找应用程序application_1533196506314_4460157 的日志。日志会包含MR在各个节点上执行的信息。

从Log中发现以下异常


http://www.ppmy.cn/news/1568848.html

相关文章

嵌入式硬件篇---基本组合逻辑电路

文章目录 前言基本逻辑门电路1.与门(AND Gate)2.或门(OR Gate)3.非门(NOT Gate)4.与非门(NAND Gate)5.或非门(NOR Gate)6.异或门(XOR Gate&#x…

高性能消息队列Disruptor

定义一个事件模型 之后创建一个java类来使用这个数据模型。 /* <h1>事件模型工程类&#xff0c;用于生产事件消息</h1> */ no usages public class EventMessageFactory implements EventFactory<EventMessage> { Overridepublic EventMessage newInstance(…

全志 视频输入组件的使用

1.启动MPP和Glog库 示例代码&#xff1a; log_init(argv[0], &stGLogConfig);MPP_SYS_CONF_S stSysConf; memset(&stSysConf, 0, sizeof(MPP_SYS_CONF_S)); stSysConf.nAlignWidth 32; AW_MPI_SYS_SetConf(&stSysConf); ret AW_MPI_SYS_Init();2.获取配置文件信…

物联网 STM32【源代码形式-使用以太网】连接OneNet IOT从云产品开发到底层MQTT实现,APP控制 【保姆级零基础搭建】

物联网&#xff08;IoT&#xff09;‌是指通过各种信息传感器、射频识别技术、全球定位系统、红外感应器等装置与技术&#xff0c;实时采集并连接任何需要监控、连接、互动的物体或过程&#xff0c;实现对物品和过程的智能化感知、识别和管理。物联网的核心功能包括数据采集与监…

Git Rebase的使用

Git rebase是Git版本控制系统中的一个重要工具&#xff0c;用于重写提交历史&#xff0c;整合分支。通过rebase&#xff0c;可以使项目历史更加简洁和清晰。本文将深入探讨Git rebase的概念、用途、具体操作及其与其他Git命令的区别。 一、Git Rebase的概念 Git rebase是将一…

基于FPGA的BT656编解码

概述 BT656全称为“ITU-R BT.656-4”或简称“BT656”,是一种用于数字视频传输的接口标准。它规定了数字视频信号的编码方式、传输格式以及接口电气特性。在物理层面上,BT656接口通常包含10根线(在某些应用中可能略有不同,但标准配置为10根)。这些线分别用于传输视频数据、…

包装类(全面解析)

Java中的常用类 含义:直接调用实现一些功能【如:Arrays工具类中的方法】 主要关注常用类中的【以jdk api中的包装类为例】 A、字段摘要(一般只看全局常量,字段名是全大写即常量) B、构造方法摘要(通过看构造方法就能知道此类怎么去创建对象) C、方法摘要(一个方法…

文件系统分析

文件系统与磁盘管理详解 一、存储设备基础 1. 存储设备类型对比 设备类型特点典型接口应用场景机械硬盘依赖磁头机械读写&#xff0c;转速影响性能&#xff08;5400/7200/10000rpm&#xff09;&#xff0c;价格低容量大SATA/SAS冷数据存储、备份固态硬盘无机械结构&#xff…