MySQL和Hadoop

一、介绍

MySQL

针对结构化数据的存储、管理、查询

mysql和hadoop下的部分都是数据库，mysql用sql,hadoop用的是hiveql。（大数据vs小数据）（结构化vs分布式）

Hadoop

定义：Hadoop 是一个开源的框架，用于大规模数据存储和处理。
组成部分：Hadoop 包含多个组件（储存和处理分开），主要包括：
- HDFS：Hadoop Distributed File System，用于分布式存储。
- YARN：Yet Another Resource Negotiator，用于集群资源管理和任务调度。
- MapReduce：一种编程模型和处理引擎，用于大规模数据处理。
- 其他生态系统工具：如 Hive、Pig、HBase、Spark 等，这些工具可以与 Hadoop 集成，提供更丰富的数据处理能力。

1、创建表：HiveQL中通常需要指定行格式和存储格式

CREATE TABLE employees (id INT,name STRING,salary DECIMAL(10, 2)
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

2、插入：Hive不支持单行插入，通常需要通过加载文件的方式插入数据

LOAD DATA LOCAL INPATH '/path/to/datafile' INTO TABLE employees;

3、日期时间函数

now()

CURRENT_TIMESTAMP()

4、字符串函数

5、分区表

HiveQL对分区表有很好的支持，通常在创建表时指定分区