介绍并比较Apache Hive支持的文件格式

news/2024/11/24 9:35:52/

Apache Hive 支持几种熟知的Hadoop使用的文件格式,Hive也能加载并查询其他Hadoop组件创建的不同文件格式,如Pig或MapReduce。本文对比Hive不同文件格式,如:TextFile, SequenceFile, RCFile, AVRO, ORC,Parquet,Cloudera Impala也支持这些格式。在Apache Hive中不同文件格式和压缩编解码方式对不同的数据集产生效果差异明显,基于场景选择合适的文件格式非常重要,就如在ClickHouse中选择合适的存储引擎一样。下面分别介绍Hive支持的各类文件格式。

Hive Text File Format

Hive Text File Format是缺省的文件格式,可以使用该格式与其他客户端应用传输数据。文本文件格式为大多数应用支持,数据按行存储,每一行代表一条记录,每行以回车符(\n)结束。

文本文件是简单平面文件格式,可以使用BZIP2进行压缩减少存储空间。Hive创建表命令可以使用STORED AS TEXTFILE支持存储格式,示例语法如下:

Create table textfile_table
(column_specs)
stored as textfile;

Hive Sequence File Format

Sequence文件格式是Hadoop支持的平面文件,数据存储为二进制键值对格式。这些文件是二进制格式、且能够分割,主要优势可以合并两个或多个文件为一个文件。

在Hive中创建顺序文件表可以通过增加存储选项实现:STORED AS SEQUENCEFILE 。下面是示例语法:

Create table sequencefile_table
(column_specs)
stored as sequencefile;

Hive RC File Format

RC 文件格式是行列文件格式,是Hive提供高行级压缩率的另一个文件格式。如果需要一次性执行多行,可以使用RCFile格式。

RCFile格式与顺序文件格式非常类似,也按照键值对方式存储数据。Hive创建RCFile表时可以指定STORED AS RCFILE选项。示例语法如下:

Create table RCfile_table
(column_specs)
stored as rcfile;

Hive AVRO File Format

AVRO是为Hadoop提供数据序列化和数据交换服务的开源项目,它可以用于在Hadoop生态与任何编程语言编写的应用之间交换数据。Avro是基于Hadoop应用最受欢迎的文件格式。

创建Hive AVRO表可以指定STORED AS AVRO选项:

Create table avro_table
(column_specs)
stored as avro;

Hive ORC File Format

ORC( Optimized Row Columnar )文件格式提供了更有效方式存储Hive表数据。这个文件系统实际上就是为了克服其他Hive文件格式的限制特性而设计的。当Hive从大表中读取、写入和处理数据时,使用ORC文件可以提高性能。

创建Hive ORC表可以指定STORED AS ORC选项:

Create table orc_table
(column_specs)
stored as orc;

Hive Parquet File Format

Parquet是面向类二进制文件格式,对于大规模查询应用非常高效,尤其是查询表中特定列数据,且能够使用 Snappy, gzip方式进行压缩,缺省为Snappy。关于parquet文件格式的优势可以参考:基于R语言理解Parquet文件格式

创建Hive Parquet表可以指定STORED AS ORC选项:

Create table parquet_table
(column_specs)
stored as parquet;

总结

本文介绍了Hive中支持的不同文件格式,了解并选择合适的文件格式对于大数据类应用非常重要。


http://www.ppmy.cn/news/27583.html

相关文章

【蓝桥杯每日一题】二分算法

🍎 博客主页:🌙披星戴月的贾维斯 🍎 欢迎关注:👍点赞🍃收藏🔥留言 🍇系列专栏:🌙 蓝桥杯 🌙我与杀戮之中绽放,亦如黎明的花…

Redis在windows本地的安装配置

Redis在windows本地的安装配置 一、安装redis 1. Redis官网下载地址:http://redis.io/download,下载相应版本的Redis,在运行中输入cmd,然后把目录指向解压的Redis目录。 2、启动服务命令 输入命令:redis-server red…

基于视频流⽔线的Opencv缺陷检测项⽬

代码链接见文末 1.数据与任务概述 输入为视频数据,我们需要从视频中检测出缺陷,并对缺陷进行分类。 2.整体流程 (1)视频数据读取和轮廓检测 首先,我们需要使用opencv读取视频数据,将彩色图转为灰度图后进行图像阈值处理。阈值处理是为了让前景和背景更明显的区分处理。…

【unittest学习】unittest框架主要功能

1.认识unittest在 Python 中有诸多单元测试框架,如 doctest、unittest、pytest、nose 等,Python 2.1 及其以后的版本已经将 unittest 作为一个标准模块放入 Python 开发包中。2.认识单元测试不用单元测试框架能写单元测试吗?答案是肯定的。单…

数据思维的关键是什么?

写这篇文章的初衷,是因为最近和一些企业交流时,发现大家在数字化转型的过程中都或多或少遇到了同一个困惑——如何提升员工的“数据思维”,让每一个人都能理解数据的价值和规律,甚至都具备数据分析的能力。即便是对于金融这样走在…

Unity 对接 ML-Agents 初探

一、ML-Agents 是什么 The Unity Machine Learning Agents Toolkit (ML-Agents) is an open-source project that enables games and simulations to serve as environments for training intelligent agents. We provide implementations (based on PyTorch) of state-of-the…

探索开源:获取完整的 GitHub 社区数据集

本篇文章聊聊 GitHub 开放数据集的获取和整理,分享一些数据整理的细节技巧,以及一些相对粗浅的数据背后的事情。 写在前面 分析 GitHub 上的项目和开发者获取是深入、真实的了解开源世界演进的方法之一。 在 GHArchive 项目中,我们能够看到…

JavaScript 中的设计模式:创建模式

💂 个人网站:【海拥】【摸鱼游戏】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 想寻找共同学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 在日常生活中&#xf…