Hive 的数据存储单元结构

embedded/2024/11/14 13:00:01/

按照数据的粒度顺序,数据存储单元数据被组织为:

  • 数据库 Databases

  • 数据表 Tables

  • 分区 Partitions

  • 桶或簇 Buckets (or Clusters)

数据库 Databases

与传统的关系型数据库一样,数据库是一个名称空间,作用是避免表、视图、分区、列等的命名冲突。数据库还可用于为用户或用户组实施安全性。

数据表 Tables

具有相同模式的同质数据单元。下边是一个 page_views 表的示例,其中每一行可以由以下列(模式,schema)组成:

  • timestamp — 它是 INT 类型,对应于查看页面时的UNIX时间戳
  • userid — 它是 BIGINT 类型,用于标识查看页面的用户
  • page_url — 它是捕获页面位置的字符串类型 STRING
  • referer_url — 它是一个字符串 STRING,用于捕获用户到达当前页的位置
  • IP — 它是一种字符串类型 STRING,用于捕获发出页面请求的 IP 地址

分区 Partitions

每个表可以有一个或多个分区键,用于确定数据的存储方式。分区除了作为存储单元外,还允许用户有效地识别满足指定条件的行;例如,STRING 类型的 date_partition 分区和 STRING 类型的 country_partition 分区。

分区键的每个唯一值定义了表的一个分区。例如,“2009-12-23” 中的所有 “US” 数据都是 page_views 表的一个分区。因此,如果仅对 2009-12-23 的 “US” 数据运行分析,则只能对表的相关分区运行该查询,从而显著加快分析速度。

但是,请注意,仅仅因为一个分区被命名为 2009-12-23 并不意味着它包含所有或仅包含该日期的数据;分区以日期命名是为了方便;保证分区名称和数据内容之间的关系是用户的工作。

分区列(Partition columns)是虚拟列它们不是数据本身的一部分,而是在加载时派生

桶或簇 Buckets (or Clusters)

每个分区中的数据又可以基于表的某一列的散列函数的值被划分为桶。例如, page_views 表可能由 userid 绑定,userid 是 page_views 表的除 partitions 列以外的列之一。这些可用于有效地对数据进行采样。


http://www.ppmy.cn/embedded/136468.html

相关文章

思考:linux Vi Vim 编辑器的简明原理,与快速用法之《 7 字真言 》@ “鱼爱返 说 温泉哦“ (**)

Linux vi/vim | 菜鸟教程 https://zhuanlan.zhihu.com/p/602675406 Linux Vim编辑器的基本使用_vim文本编辑器-CSDN博客 思考 1. 记忆公式: 按键操作的 7 字真言 1: "鱼爱返 说 温泉哦" v i Esc : wq ! ----------- 一般的简单…

高级java每日一道面试题-2024年10月31日-RabbitMQ篇-RabbitMQ中vhost的作用是什么?

如果有遗漏,评论区告诉我进行补充 面试官: RabbitMQ中vhost的作用是什么? 我回答: 在Java高级面试中,关于RabbitMQ中vhost(虚拟主机)的作用是一个重要且常见的考点。以下是对vhost的详细解释: 一、vhost的基本概念 vhost&am…

yaml文件编写

Kubernetes 支持YAML和JSON格式管理资源 JSON 格式:主要用于 api 接口之间消息的传递 YAML 格式;用于配置和管理,YAML是一种简洁的非标记性语言,内容格式人性化容易读懂 一,yaml语法格式 1.1 基本语法规则 使用空格进行缩进(不使用制表符&#xff0…

数据结构 C/C++(实验二:栈)

(大家好,今天分享的是数据结构的相关知识,大家可以在评论区进行互动答疑哦~加油!💕) 目录 提要:实验题目 一、实验目的 二、实验内容及要求 三、算法思想 实验1 实验2 四、源程序及注释…

iOS SmartCodable 替换 HandyJSON 适配记录

前言 HandyJSON群里说建议不要再使用HandyJSON,我最终选择了SmartCodable 来替换,原因如下: 首先按照 SmartCodable 官方教程替换 大概要替换的内容如图: 详细的替换教程请前往:使用SmartCodable 平替 HandyJSON …

引入 axios,根据 api 文档生成调用接口

起步 | Axios Docs 安装 axios npm install axios 生成 api 调用接口【可选】 https://github.com/ferdikoomen/openapi-typescript-codegen 安装 npm install openapi-typescript-codegen --save-dev 然后执行生成代码 # http://localhost:8805/api/user/v3/api-docs&a…

Git遇到“fatal: bad object refs/heads/master - 副本”问题的解决办法

Git遇到“fatal: bad object refs/heads/master - 副本”问题的解决办法 起源 让我们从一个常见的Git错误开始: fatal: bad object refs/heads/master - 副本这个错误提示通常意味着Git在引用(ref)中发现了不一致或损坏的数据。引用是Git用…

mysql-springboot netty-flink-kafka-spark(paimon)-minio

1、下载spark源码并编译 mkdir -p /home/bigdata && cd /home/bigdata wget https://archive.apache.org/dist/spark/spark-3.4.3/spark-3.4.3.tgz 解压文件 tar -zxf spark-3.4.3.tgz cd spark-3.4.3 wget https://raw.githubusercontent.com/apache/incubator-celeb…