Impala

news/2024/10/21 11:49:33/

应用场景

在使用Hive的过程中，编写了HQL语句，发现HQL执行过程是非常慢的，因为hive采用的是把HQL转化成hadoop的MapReduce任务，然后编译，打包成jar包，分发到各个server上去执行，这个过程会很慢很慢！而impala也可以执行SQL，但是比Hive快很多，而Impala根本不用Hadoop的Mapreduce机制，直接调用HDFS的API获取文件，在内存中快速计算！
但是Impala也并不是完全比Hive好。Impala的容错机制没有Hive好，而且没有Hive那么成熟。

所以一般使用以下方法来决定使用哪个：

如果是ETL任务使用Hive
如果是实时的热查询则用Impala

1. Impala介绍

Impala是Cloudera公司主导开发的新型查询系统，它提供SQL语义，能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义，但由于Hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程，难以满足查询的交互性。相比之下，Impala的最大特点也是最大卖点就是它的快速。

1.1 Impala的优点

Impala不需要把中间结果写入磁盘，省掉了大量的I/

http://www.ppmy.cn/news/345127.html

相关文章

pam

pam

Pluggable Authentication Modules：可插入验证模块比如一台服务器开着FTP、SSH等服务，那么新建一个用户默认就享有对以上的服务的操作权限，那么如果一个用户的帐号密码泄露会涉及到多个服务。 PAM最大的特点是实现了服务程序和认证机制的分…

阅读更多...

PAM简介

PAM简介

PAM简介PAM是 PLUGGABLE AUTHENTICATION MODULES 的缩写.它是一套共享库.它可以让系统管理员选择应用程序怎样去认证用户，而不需要知道应用程序的内部的实现细节，也不需要重新编译代码。在PAM出现之前，一般的应用程序，在要去认证用…

阅读更多...

Pacman基本使用

Pacman基本使用

安装软件 pacman -S (软件名)：安装软件，若有多个软件包，空格分隔pacman -S --needed （软件名）：安装软件，若存在，不重新安装最新的软件pacman -Sy (软件名)：安装软件前&a…

阅读更多...

PAM4科普

PAM4科普

PAM4科普 Bit Per SymbolGbps和Gbaud关系Unit Interval(UI)奈奎斯特频率 Data Rate（Gb/s Gagabit Per Second）PAMn LevelsBit Per SymbolSymbol Rate(Symbol Transfer Per Second)Unit Interval(UI)Nyquist FreqSNR Delta 图片来自于Intel发表的文章&am…

阅读更多...

pam.d是干什么的

pam.d是干什么的

PAM（Pluggable Authentication Modules ）是由Sun提出的一种认证机制。它通过提供一些动态链接库和一套统一的API，将系统提供的服务和该服务的认证方式分开，使得系统管理员可以灵活地根据需要给不同的服务配置不同的认证方式而无需…

阅读更多...

MMpa一pa

MMpa一pa

最新的某131网站精美套图爬取代码出炉，截至2020年4月13日有效，之后就不知道啦。来，各位看客老爷们可以搞一下： import requests import json import re import time import osdef find_img_src(html): #这个函数其实没用到re…

阅读更多...

PAM详解

PAM详解

最近接触PAM比较多，而中文版的文档过于老久，所以专门下载了英文版的指南，边学习边翻译。由于水平有限，如有错误请及时指正。 1 简介 Linux-PAM(Pluggable Authentication Modules for Linux.基于Linux的插入式验证模块)是一组共享…

阅读更多...

求夏普利值代码

求夏普利值代码

本文提供了求夏普利值的代码，需要算法的地方只有分割子集。 import java.util.*;public class Shapley {/*** 得到包含这个元素的全部子集* param set* param target* return*/public static Set<Set<String>> findSubsets(List<String> set, St…

阅读更多...

最新文章