Hive+Spark离线数仓工业项目实战--环境构建(3)

news/2025/2/13 4:31:08/

项目环境配置

根据需求实现项目环境配置

实施

  - 注意:所有软件Docker、Hadoop、Hive、Spark、Sqoop都已经装好,不需要额外安装配置,启动即可

配置网络:如果你的VM Nat网络不是88网段,请按照以下修改

    - 修改Linux虚拟机的ens33网卡,网卡和网关,修改为自己的网段

  配置映射

项目环境测试:Oracle

实现项目Oracle环境的测试

实施

 - 远程连接:DG

    - step1:安装DG

    - step2:创建连接

      - SID:helowin
    - 用户名:ciss
      - 密码:123456
  
   
  
    
  
 
    
   step3:配置驱动包

  
  
  
  step4:配置JDK
  

   step5:测试
  

- 关闭
  

项目环境测试:MySQL

实现项目MySQL环境的测试

实施

  - 大数据平台中自己管理的MySQL:两台机器

    - 存储软件元数据:Hive、Sqoop、Airflow、Oozie、Hue
    - 存储统计分析结果

  - 注意:MySQL没有使用Docker容器部署,直接部署在当前node1宿主机器上

  - 启动/关闭:默认开启自启动

  - 连接:使用命令行客户端、Navicat、DG都可以

    - 用户名:root
    - 密码:123456

  

 

 查看

项目环境测试:Hadoop

目标:实现项目Hadoop环境的测试

实施

 

 node1:8088

node1:19888

 

项目环境测试:Hive

目标:实现项目Hive环境的测试

实施

    - Shuffle【分区、排序、分组】三种场景
    - 重分区:repartition:分区个数由小变大
        - 调用分区器对所有数据进行重新分区
        - rdd1
          - part0:1 2 3 
          - part1: 4 5 6 
        - rdd2:调用分区器【只有shuffle阶段才能调用分区器】
          - part0:0 6
          - part1:1  4 
          - part2:2  5
      - 全局排序:sortBy
        - part0:1 2 5
        - part1: 4  3 6 
        - 方案:将所有数据放入磁盘
        - 实现:对数据做了范围分区:将所有数据做了采样:4
          - part0:6  5  4 
          - part1:3 2 1
      - 全局分组:groupBy,reduceByKey

  - 关闭Hive容器

项目环境测试:Spark

目标:实现项目Spark环境的测试

实施

项目环境测试:Sqoop

目标:实现项目Sqoop环境的测试

实施

  - 实现项目Sqoop环境的测试

## 要求

1. Python面向对象

   - 类和对象
   - 方法

2. Hive中建表语法

   ```
   create [external] table tbname(
       字段 类型 comment,
   ) 
   comment
   partitioned by 
   clustered by col into N buckets
   row format 
   stored as textfile
   location
   ```


http://www.ppmy.cn/news/6024.html

相关文章

【Three.js入门】标准网格材质、置换贴图、粗糙度贴图、金属贴图、法线贴图

个人简介 👀个人主页: 前端杂货铺 🙋‍♂️学习方向: 主攻前端方向,也会涉及到服务端 📃个人状态: 在校大学生一枚,已拿多个前端 offer(秋招) 🚀未…

503.下一个更大元素II,42. 接雨水

503. 下一个更大元素 II 给定一个循环数组 nums ( nums[nums.length - 1] 的下一个元素是 nums[0] ),返回 nums 中每个元素的 下一个更大元素 。 数字 x 的 下一个更大的元素 是按数组遍历顺序,这个数字之后的第一个比它更大的数…

C语言--操作符

文章目录一、数据的存储二、算术操作符三、移位操作符左移位操作符<<右移操作符四、位操作符五、赋值操作符六、单目操作符sizeof前后置七、关系操作符一、数据的存储 如果想要准确的掌握每个操作符的作用&#xff0c;那么首先需要理解数据在计算机中的存储和运算规则。…

JMeter+Ant+Jenkins接口自动化测试框架

一:简介 大致思路&#xff1a;Jmeter可以做接口测试&#xff0c;也能做压力测试&#xff0c;而且是开源软件&#xff1b;Ant是基于Java的构建工具&#xff0c;完成脚本执行并收集结果生成报告&#xff0c;可以跨平台&#xff0c;Jenkins是持续集成工具。将这三者结合起来可以搭…

扫雷游戏的设计(百分百还原电脑操作)

目录 &#x1f332;了解扫雷游戏的作用原理并梳理思路 &#x1f332;扫雷游戏前期部分完善 &#x1f337;文件的创建 &#x1f337;创建菜单&#xff0c;完善主函数 &#x1f333;代码呈现&#xff1a; &#x1f332;扫雷游戏主题内容 &#x1f334;第一步初始化棋盘 &#x1…

蓝牙耳机什么牌子好?音质好、配置高的蓝牙耳机分享

​经常听到很多网友在讨论哪些蓝牙耳机好用&#xff0c;什么蓝牙耳机的配置高......选购蓝牙耳机无非就是音质、蓝牙技术、续航、佩戴体验等各方面条件&#xff0c;还有哪位朋友不知道该如何选购蓝牙耳机的&#xff1f;根据我对蓝牙耳机的了解&#xff0c;从网上整理了好几款蓝…

5.Linux文件管理命令---cp复制文件

文章目录Linux文件管理命令cp&#xff1a;复制文件示例介绍&#xff1a;Linux文件管理命令 cp&#xff1a;复制文件 作用&#xff1a;文件或目录的复制。 用法&#xff1a;cp [选项]… [-T] 源文件 目标文件 cp [选项]… 源文件… 目录 cp [选项]… -t 目录 源文件… 将<源…

熬不过“冬天”,又一跨境电商平台关停

熬不过“冬天”&#xff01;又一跨境电商平台关停据相关媒体报道&#xff0c;京东旗下跨境电商服务平台Joybuy于2022年11月4日宣布将进行“业务升级”&#xff0c;而后该平台的所有交易活动已经停止。据Egain News报道&#xff0c;“业务升级”的说法很大可能只是关停的一种“委…