数仓建模：DataX同步Mysql数据到Hive如何批量生成建表语句？| 基于SQL实现

一、需求

二、实现步骤

1.数据类型转换维表

sql%E6%89%B9%E9%87%8F%E7%94%9F%E6%88%90%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A5-toc" style="margin-left:80px;">2.sql批量生成建表语句

三、小结

如果觉得本文对你有帮助，那么不妨也可以选择去看看我的博客专栏，部分内容如下：

数字化建设通关指南

专栏原价99，现在活动价39.9，按照阶梯式增长，还差3个名额将上升至59.9，直到恢复原价。

一、需求

数据采集时如果使用datax的话，必须先手工建好表之后才能进行数据采集；使用sqoop的话虽然可以默认建表，但是每次还要手工配置命令。表数量不多的话还好，如果多库多表需要批量采集的话工作量会很大，因此需要一个批量生成建表语句的功能来节省人力。

二、实现步骤

1.数据类型转换维表

先确定好异构数据源的数据类型转换关系，可以定义好一张维表。

sql">CREATE TABLE dim_data_type_convert(source string comment '源库',source_data_type string comment '源库数据类型',target string comment '目标库',target_data_type string comment '目标库数据类型',update_time string comment '更新时间')COMMENT='数据类型转换维表';

数据示例如下：

源库	源库数据类型	目标库	目标库数据类型	更新时间
sql>mysql	bigint	hive	bigint	20220817
sql>mysql	int	hive	bigint
sql>mysql	tinyint	hive	bigint
sql>mysql	char	hive	string
sql>mysql	varchar	hive	string
sql>mysql	datetime	hive	datetime
sql>mysql	decimal	hive	double
sql>mysql	double	hive	double
sql>mysql	float	hive	double
sql>mysql	json	hive	string
sql>mysql	mediumtext	hive	string
sql>mysql	text	hive	string
sql>mysql	time	hive	string
sql>mysql	timestamp	hive	timestamp
sql>mysql	varbinary	hive	binary
sql>mysql	binary	hive	binary

sql%E6%89%B9%E9%87%8F%E7%94%9F%E6%88%90%E5%BB%BA%E8%A1%A8%E8%AF%AD%E5%8F%A5">2.sql批量生成建表语句

sql">SELECTa.TABLE_NAME ,b.TABLE_COMMENT ,concat('CREATE TABLE IF NOT EXISTS ',a.TABLE_NAME ,' (',group_concat(concat(a.COLUMN_NAME,' ',c.target_data_type," COMMENT '",COLUMN_COMMENT,"'") order by a.TABLE_NAME,a.ORDINAL_POSITION) ,") COMMENT '",b.TABLE_COMMENT ,"' ROW FORMAT DELIMITED FIELDS TERMINATED BY '\\t' STORED AS orc;") AS DDL
FROM(SELECTTABLE_SCHEMA,TABLE_NAME,COLUMN_NAME,ORDINAL_POSITION,DATA_TYPE,COLUMN_COMMENTFROM information_schema.COLUMNSWHERE TABLE_SCHEMA='你的库名') a
LEFT JOIN information_schema.TABLES bON a.TABLE_NAME=b.TABLE_NAMEAND a.TABLE_SCHEMA=b.TABLE_SCHEMA
--源库为sql>mysql，目标库为hive
LEFT JOIN(select*from dim_data_type_convertwhere source='sql>mysql' and target='hive') cON a.DATA_TYPE=c.source_data_type
where b.TABLE_TYPE='BASE TABLE'
GROUP BYa.TABLE_NAME,b.TABLE_COMMENT
;

生成示例：

TABLE_NAME	TABLE_COMMENT	DDL
TABLE_NAME	TABLE_COMMENT	CREATE TABLE IF NOT EXISTS TABLE_NAME (COLUMN_NAME target_data_type COMMENT “COLUMN_COMMENT”) COMMENT "TABLE_COMMENT " ROW FORMAT DELIMITED FIELDS TERMINATED BY '\\t' STORED AS orc;

三、小结

本文基于SQL给出了一种 DataX同步Mysql数据到Hive批量生成建表语句的方法及技巧，该方法和技巧在数仓开发中经常被用到

如果觉得本文对你有帮助，那么不妨也可以选择去看看我的博客专栏，部分内容如下：

数字化建设通关指南

专栏原价99，现在活动价39.9，按照阶梯式增长，还差3个名额将上升至59.9，直到恢复原价。

主要内容：
（1）SQL进阶实战技巧
可以参考如下教程，具体链接如下

SQL很简单，可你却写不好？也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

（2）数仓建模实战技巧和个人心得
1）新人入职新公司后应如何快速了解业务？

2）以业务视角看宽表化建设？

3) 维度建模 or 关系型建模？

4）业务模型与数据模型有什么区别？业务阶段的模型该如何建设？

5）业务指标体系该如何建设？指标体系该如何维护？指标平台应如何建设？指标体系该由谁来搭建？

6）如何优雅设计DWS层？DWS层模型好坏该如何评价？

7）指标发生异常，该如何排查？应从哪些方面入手寻找问题点？

8）数据架构的选择，mpp or hadoop?

9）数仓团队应如何体现自己的业务价值，讲好数据故事？

10）BI与大数据有什么关系？BI与信息化、数字化之间有什么关系？BI与报表之间的关系？

11）数据部门如何与业务部门沟通，并规划指引业务需求？

文章不限于以上内容，有新的想法也会及时更新到该专栏。

具体专栏链接如下：

数字化建设通关指南_莫叫石榴姐的博客-CSDN博客