大数据:数据表操作,分区表,分桶表,修改表,array,map, struct

news/2024/11/30 15:42:39/

大数据:数据表操作,分区表

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 大数据:数据表操作,分区表
    • @[TOC](文章目录)
  • 大数据:分区表
  • 分桶表
  • 修改表
  • 复杂操作array类型
  • map数据类型
  • struct数据类型
  • hive反正就是基于MapReduce的sql框架,它能写sql又能做分布式计算,这些知识好好复习,对于未来考网络警察很有帮助的。
  • 总结

大数据:分区表

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
物理上就是文件夹分开
美滋滋

在这里插入图片描述
在这里插入图片描述
语法是

partitioned by(字段,列类型)

在这里插入图片描述
在这里插入图片描述
注入数据是放5月的那个分区
这样的话,相当于指定了一个字段属性

在这里插入图片描述
分区就会继续构建子文件夹
美滋滋

在这里插入图片描述

多级分区
在这里插入图片描述
相当于仨文件目录
注入数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缩小查询范围
过滤条件,跟sql很类似

分桶表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分桶是为了负载均衡

文件的数量固定

在这里插入图片描述
目的是负载均衡

在这里插入图片描述
reduce的数量和分桶一样
估计就是为了方便计算通道匹配

clustered by(字段) into k buckets关键字

分桶,利用哪个字段来分桶
哈希值随机分桶,牛逼的

算法里面学过的

在这里插入图片描述
在这里插入图片描述
load中转
做一个表,不能从数据直接干到分桶表中
在这里插入图片描述
在这里插入图片描述
分桶
建表是clustered by
导入数据是cluster

没有ed

在这里插入图片描述
看看hdfs
在这里插入图片描述
指定了分桶的数量是3
按照cid这个字段来分桶
分桶原理就是哈希表映射

cid哈希值%3
就行了
在这里插入图片描述
在这里插入图片描述
数据需要一分为三
你不能直接干进去
还需要计算去向

在这里插入图片描述
只要计算,就必须要过MapReduce
于是load data干不了,它不会触发的
在这里插入图片描述
在这里插入图片描述
所以每个桶,不见得里面的东西是一样的
在这里插入图片描述
在这里插入图片描述
分桶的目的就是确定某些数据,一定在同一个桶中
不必去找别的桶
懂吗

在这里插入图片描述
对应join,合并即可

在这里插入图片描述
自然成组

在这里插入图片描述

修改表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
修改表名
在这里插入图片描述
在这里插入图片描述
修改表的属性,内部表,外部表
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
添加文件夹
修改文件夹名字
删除文件夹
分区就是文件夹分级

在这里插入图片描述
没必要搞分区
不要操作分区的骚操作

在这里插入图片描述
加列

在这里插入图片描述

复杂操作array类型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数组内部是逗号分割

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
统计数组个数
不管python,java,c++,还是sql,hive,都类似的,核心思想不变的
在这里插入图片描述

map数据类型

在这里插入图片描述
在这里插入图片描述
集合项目之间以#分隔
map键值对通过:分隔
好说
在这里插入图片描述
map类型,这个比sql牛逼啊

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
python中的字典
就是kv键值对

好说

在这里插入图片描述

struct数据类型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
结构体,c中的
在这里插入图片描述

hive反正就是基于MapReduce的sql框架,它能写sql又能做分布式计算,这些知识好好复习,对于未来考网络警察很有帮助的。


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。


http://www.ppmy.cn/news/183418.html

相关文章

有哪款戴尔笔记本适合学计算机专业,学生用笔记本哪款好? 2018适合大学生用的笔记本...

谁的青春不迷茫,为学业、为爱情、为友情。又是一年毕业季,又是一年开学季,相信拿到录取通知书的学生们开始为选择什么电脑而迷茫了。电子产品价格昂贵,如果需要买电脑也确实需要下些功夫。运行速度、质感、散热、重量、售价、所学…

学计算机的需要配哪种笔记本,微软哪一款笔记本电脑办公用性价比高?

微软在发布第一代Surface电脑时应该想不到它会变成今天的样子。2012年在纽约时代广场的快闪店我买到了和Windows 8一起发布的第一代Surface,那是搭载ARM芯片的平板电脑,虽然工业设计惊艳,但实际市场反响并不算好。直到2015年Surface Pro 4的上…

打游戏最快的计算机,打游戏最好的笔记本电脑是哪一款-散热迅速运行流畅笔记本电脑大全...

数码市场上游戏笔记本电脑品牌数不胜数,大家在玩打游戏的笔记本电脑时也会货币三家呢?针对市面上层出不穷的游戏笔记本电脑纠结哪款更好用呢?散热迅速运行流畅是非常必要的考虑因素,小编为大家带来打游戏最好的笔记本电脑推荐&…

适合php编程的笔记本电脑,做web前端,推荐一款笔记本电脑。

4000-5000的就行。 这个问题已被关闭,原因:非技术提问的讨论型问题 回复内容: 4000-5000的就行。 华硕笔记本足够优秀的了 你买的华硕什么型号的 2.7GHz 处理器 128 GB 存储容量 2.7GHz 双核 Intel Core i5 处理器 Turbo Boost 高达 3.1GHz 8…

学计算机苹果电脑哪款好,学生超值电脑汇总!适合学生的5款顶级笔记本电脑,您喜欢哪款?...

原标题:学生超值电脑汇总!适合学生的5款顶级笔记本电脑,您喜欢哪款? 与几年前不同,笔记本电脑现在是大学或大学学生的必备工具。但是,年龄较小的孩子也需要通过网络访问进行学习,因此&#xff0…

学计算机买戴尔笔记本哪款,戴尔笔记本大学生用,买哪款比较好?

外观不太难看,就选Sony或者Toshiba啦,而且Sony 5月才出的一款NW18高性价比的本本我就觉得不错,不过屏幕大了点15寸,但那个屏幕效果绝对远超其他的机型,我在店里看的时候比CS系列显示图像好多了。 [索尼(SONY)官方网站]…

Stable Diffusion 超详细讲解

Stable Diffusion 超详细讲解 这篇文章是 《Stable Diffusion原理详解》的后续,在《Stable Diffusion原理详解》中我更多的是以全局视角讲解了 Stable Diffusion 的原理和工作流程,并未深入步骤细节。本文将在《Stable Diffusion原理详解》和《Diffusio…

写一个模拟彩票中奖的程序及彩票分析

题目要求是 十个数字 和四个字母 ,彩票中奖号是四位数,随机,要求写出买彩票直到中奖次数 import random #使用random模块 b[] d[] n0 a[1,2,3,4,5,6,7,8,9,0,a,b,c,d] while True:krandom.randint(0,13) #列表a的索引是0-13,所…