解决hive表新增的字段查询为空null问题

ops/2024/10/15 22:12:57/

项目场景:

由于业务拓展,需要往hive分区表新增新的字段,hive版本为2.1.1-cdh6.3.2

于是利用

alter table table_name add columns (col_name string )

新增字段,然后向已存在分区中插入数据,以为问题就解决了。

结果一查询发现新增字段的值全部为null

这是怎么回事,怀疑是不是数据没有插入成功,于是查看日志确实是写入成功了,后换了impala和presto 两种引擎查询,发现两个结果都有值,如果直接到目录下查看数据文件会发现确实有值。

经排查,这是hive 的bug,用Hive版本比较低,会出现这个问题。据说最新的版本已经没有这个问题了(未验证)。


问题描述

为了复现这个问题,今天把这个问题追溯下。

1.新增一张学生测试表并向分区插入数据

create table if not exists test.student(id string comment '编号',user_name string comment '姓名',age int comment '年龄')comment '学生表'partitioned by(dt string comment '分区字段,格式yyyymmdd')stored as parquetTBLPROPERTIES('parquet.compression'='SNAPPY');
  • 其中dt为分区,往学生表新增一个分区,并插入记录测试。
insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7 from test.table_name limit 10

2.新增两个字段 class 、grade 并插入数据

alter table test.student add columns(class string);alter table test.student add columns(grade string);
insert overwrite table test.student partition (dt='20220112') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

3.查询数据

select * from test.student where dt ='20220112'

在这里插入图片描述
发现刚新增的class grade 字段显示都为NULL,并不是我们期望。

但impala和presto 两种引擎查询是能够正常显示的。

4.再往表新增’20220113’分区

insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级' from test.table_name limit 10

5.再查询这个分区

select * from test.student where dt ='20220113'

在这里插入图片描述

  • 发现查询
select * from test.student where dt ='20220112'

还是依旧为NULL

  • 由此我们可以得出这样一个结论

分区在增加字段前存在,新增字段值为NULL的情况
分区在增加字段前不存在,正常


解决方案:

  • 1.删除分区或者重新建表

这种情况分区较多亦或是数据量较大,都不推荐使用。

  • 2.针对分区执行

对于在增加字段前已经存在的分区,需要再执行

alter table test.student partition(dt='20220112') add columns(grade string);alter table test.student partition(dt='20220112') add columns(class string);

我们再来看看’20220112’分区字段class和grade显示是否正常

select * from test.student where dt ='20220112'

在这里插入图片描述
从结果我们可以看到,已经正常显示了。

3.在往表添加字段时加上cascade

第二种方案,要是我们表里有很多分区,这样处理就显得有些繁琐了,不知有没有更优雅的处理方式,答案是肯定的,那就是在修改列时加上cascade

alter table test.student add columns (`number` string ) cascade;
insert overwrite table test.student partition (dt='20220113') select user_id, '小爱',7,'1班','一年级','N202209010101' from test.table_name limit 10
select * from test.student where dt ='20220113'

在这里插入图片描述

总结:

  • 1.对于在增加字段前已经存在的分区,需要再执行
alter table test.student partition(dt='20220112') add columns(column_name string);
  • 2.在往表添加字段时加上cascade
alter table test.student add columns (column_name string ) cascade;

个人觉得第二种解决方案操作比第一种要方便得多。推荐使用。


参考1


http://www.ppmy.cn/ops/16744.html

相关文章

夜神、雷电、android studio手机模拟器资源占用情况

夜神、雷电、android studio手机模拟器内存资源占用情况 由于开发电脑只有16G内存,出于开发需要和本身硬件资源的限制,对多个手机模拟器进行了机器资源占用(主要是内存)的简单比较。 比较的模拟器包括: 1. Android S…

华纳云:如何使用Docker进行有效的日志管理?

使用 Docker 进行有效的日志管理可以帮助您轻松地收集、存储、分析和监控容器日志。以下是一些在 Docker 中实现有效日志管理的实践: 1.使用标准输出和标准错误输出:配置容器使其将日志输出到标准输出(stdout)和标准错误输出(stderr)。这样做可以让 Dock…

C++笔记打卡第23天(STL常用算法)

1.常用排序算法 sort&#xff1a;对容器内元素进行排序 class Myprint { public:void operator()(int val){cout << val << " ";} };// 查自定义数据类型 void test01() {vector<int> v;v.push_back(10);v.push_back(20);v.push_back(15);v.push_b…

Java在区块链开发中的作用及发展

Java在区块链开发中的作用以及发展 一、引言 随着信息技术的飞速发展&#xff0c;区块链技术作为一种新兴的去中心化分布式账本技术&#xff0c;正逐渐引起人们的广泛关注。区块链以其独特的不可篡改、去中心化、安全可信等特性&#xff0c;在数字货币、供应链管理、金融科技…

80个在线小游戏源码

源码简介 搭建80个在线小游戏网站源码&#xff0c;解压即可食用&#xff0c;支持在本地浏览器打开。 安装教程 纯HTML&#xff0c;直接将压缩包上传网站目录解压即可 首页截图 源码下载 80个在线小游戏源码-小8源码屋

普冉PY32F071单片机简单介绍,QFN64 48封装,支持 8 * 36 / 4 * 40 LCD

PY32F071单片机是一款基于32 位 ARM Cortex - M0内核的微控制器&#xff0c;由普冉半导体推出。PY32F071可广泛应用于各种嵌入式系统中&#xff0c;包括消费类电子产品、工业自动化、医疗设备等领域。PY32F071系列单片机具有低功耗、高性能和丰富的外设接口等特点&#xff0c;适…

SpringBoot + React Ant Design 实现图片上传到Minio 中

1&#xff1a;效果图 上传回显&#xff1a; 上传预览&#xff1a; 预览-删除 2&#xff1a;前端代码 react 函数式组件 /*** Author * Date Created in 2024/04/11 15:20* DESCRIPTION: 主讲人信息* Version V1.0*/ import React, {useEffect, useId, useState} from "…

数据挖掘实验(Apriori,fpgrowth)

Apriori&#xff1a;这里做了个小优化&#xff0c;比如abcde和adcef自连接出的新项集abcdef&#xff0c;可以用abcde的位置和f的位置取交集&#xff0c;这样第n项集的计算可以用n-1项集的信息和数字本身的位置信息计算出来&#xff0c;只需要保存第n-1项集的位置信息就可以提速…