Sqoop安装部署

devtools/2025/3/23 23:35:01/

Apache Sqoop 简介

Sqoop(SQL-to-Hadoop)是 Apache 开源项目,主要用于:

  • 将关系型数据库中的数据导入 Hadoop 分布式文件系统(HDFS)或相关组件(如 Hive、HBase)。

  • 将 Hadoop 处理后的数据导出回关系型数据库。

 

核心特性

  1. 批量数据传输
    支持从数据库表到 HDFS/Hive 的全量或增量数据迁移。

  2. 并行化处理
    基于 MapReduce 实现并行导入导出,提升大数据量场景的效率。

  3. 自动类型映射
    自动将数据库字段类型转换为 Hadoop 兼容类型(如 INT → IntegerWritable)。

  4. 事务一致性
    保证数据导出到数据库时的原子性(通过 --staging-table 等机制)。

  5. 灵活扩展
    支持自定义插件,适配不同数据库或数据格式(如 Avro、Parquet)。

使用场景

  • 数据仓库构建:将业务数据库数据导入 Hive 进行分析。

  • ETL 流程:配合 Spark、MapReduce 处理后的数据回写至数据库。

  • 日志归档:将历史日志从数据库迁移到 HDFS 长期存储。

 安装与配置

  1. 依赖环境

    • Hadoop 集群(HDFS、YARN)

    • Java 环境(JDK 8+)

    • 目标数据库的 JDBC 驱动(如 MySQL 的 mysql-connector-java.jar

  2. 安装 Sqoop

    • 从 Apache 官网 下载二进制包。

    • 解压并配置环境变量:

tar -zxvf sqoop-1.4.5.bin__hadoop-0.23.tar.gz -C ~/training/

 

 

 找到安装路径为了便于操作修改文件名称

mv sqoop-1.4.5.bin__hadoop-0.23/ sqoop/

 

 

 

设置环境变量vi ~/.bash_profileSQOOP_HOME=/root/training/sqoopexport SQOOP_HOMEPATH=$SQOOP_HOME/bin:$PATHexport PATH

生效环境变量  
source ~/.bash_profile

 输入 sqoop 按2次 Tab 按键如下所示 安装成功

  • 将数据库 JDBC 驱动复制到 $SQOOP_HOME/lib 目录。

与其他工具对比

工具适用场景特点
Sqoop结构化数据库 ↔ Hadoop批量导入导出,强类型支持
Flume日志流 → HDFS实时流数据传输
Kafka实时数据流高吞吐消息队列

 


http://www.ppmy.cn/devtools/169168.html

相关文章

HTML 写一个计算器

<!DOCTYPE html> <html> <head><meta charsetutf-8/><title>Calculator</title><style id"jsbin-css">div, span {margin: 0;padding: 0;font-weight: bold;font: bold 16px Arial, sans-serif;/*禁止选中文本*/-moz-user…

Kubernetes Init 容器:实现 Nginx 和 PHP 对 MySQL 的依赖检查

在设计 Kubernetes Pod 时&#xff0c;如果需要在启动 Nginx 和 PHP 之前等待 MySQL 启动完成&#xff0c;可以通过 初始化容器&#xff08;initC&#xff09; 来实现。初始化容器可以用于检查 MySQL 是否可用&#xff0c;只有在 MySQL 可用后&#xff0c;才会继续启动主容器&a…

ATT 汇编常用指令

汇编常用指令# 1、操作数 立即数&#xff1a;表示常数值 表示方法&#xff1a;"$"标准C表示法表示的整数 例&#xff1a;$0x1F 寄存器&#xff1a;表示某个寄存器的内容 表示方法&#xff1a;"%"寄存器的名称 例&#xff1a;%eax 内存引用&#xff1a;会…

前端小食堂 | Day17 - 前端安全の金钟罩

&#x1f6e1;️ 今日盾牌&#xff1a;XSS/CSRF 攻防全解析 1. XSS 防御の三重结界 // &#x1f6ab; 危险操作&#xff1a;直接渲染未过滤内容 document.getElementById(content).innerHTML userInput; // ✅ 安全姿势一&#xff1a;文本转义 const escapeHTML (str)…

AI+视频赋能智慧农业:EasyCVR打造全域可视化农场监管平台

随着科技的飞速发展&#xff0c;传统农业正加速向智慧农业转型&#xff0c;农场管理也迎来了前所未有的变革机遇。在这一进程中&#xff0c;如何有效整合先进的信息技术&#xff0c;实现农场的精准化、智能化管理&#xff0c;成为了摆在农场主和农业管理者面前的关键课题。 基于…

清华大学第12弹:《DeepSeek政务应用场景与解决方案》.pdf(文末附免费下载地址)

大家好&#xff0c;我是吾鳴。 之前吾鳴给大家分享由清华大学出品的11份DeepSeek的报告&#xff0c;它们分别是&#xff1a; 《DeepSeek从入门到精通》 《AIGC发展研究》 《DeepSeek&#xff1a;赋能品牌传播与营销》 《DeepSeekDeepResearch&#xff1a;让科研像聊天一样简…

【RabbitMQ】RabbitMQ如何保证消息不丢失?

为了保证消息不丢失&#xff0c;需要在生产者、RabbitMQ本身和消费者三个环节采取相应措施。 1.生产者端&#xff1a;确保消息发送成功 1.1开启消息确认机制(Publisher Confirms) 原理&#xff1a; 生产者发送消息后&#xff0c;RabbitMQ会返回一个确认(ACK),表示消息已成功…

云计算赛题私有云服务搭建题目

【任务 1】私有云服务搭建[5 分] 【题目 1】1.1.1 基础环境配置[0.2 分] 1.控制节点主机名为 controller,设置计算节点主机名为 compute; 2.hosts 文件将 IP 地址映射为主机名。 使用提供的用户名密码,登录提供的 OpenStack 私有云平台,在当前租户下,使用 CentOS7.9 镜…