一、介绍
MySQL
针对结构化数据的存储、管理、查询
mysql和hadoop下的部分都是数据库,mysql用sql,hadoop用的是hiveql。(大数据vs小数据)(结构化vs分布式)
Hadoop
-
定义:Hadoop 是一个开源的框架,用于大规模数据存储和处理。
-
组成部分:Hadoop 包含多个组件(储存和处理分开),主要包括:
- HDFS:Hadoop Distributed File System,用于分布式存储。
- YARN:Yet Another Resource Negotiator,用于集群资源管理和任务调度。
- MapReduce:一种编程模型和处理引擎,用于大规模数据处理。
- 其他生态系统工具:如 Hive、Pig、HBase、Spark 等,这些工具可以与 Hadoop 集成,提供更丰富的数据处理能力。
二、命令的不同
1、创建表:HiveQL中通常需要指定行格式和存储格式
CREATE TABLE employees (id INT,name STRING,salary DECIMAL(10, 2)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
2、插入:Hive不支持单行插入,通常需要通过加载文件的方式插入数据
LOAD DATA LOCAL INPATH '/path/to/datafile' INTO TABLE employees;
3、日期时间函数
now()
CURRENT_TIMESTAMP()
4、字符串函数
5、分区表
HiveQL对分区表有很好的支持,通常在创建表时指定分区