将原始数据导入mysql
1 选中mysql 运行脚本
2 验证结果
数据存储格式和压缩方案
存储格式
分类
1.行式存储(textFile)
缺点:可读性较好 执行 select * 效率比较高
缺点:耗费磁盘资源 执行 select 字段 效率比较低
2.列式存储(orc)
优点:节省磁盘空间. 执行 select 字段 效率比较高
缺点:执行 select * 效率比较低 , 可读性不是特别好
orc的本质
ORC是兼具行式存储优势又具有列式存储优势, 数据按行分块, 每块中按列存储数据, 同时在每个块内部, 对数据构建索引, 提升查询的效率。