Hive 查询各类型专利 top10 申请人及专利申请数

news/2024/11/14 4:43:02/

Hive 查询各类型专利 top10 申请人及专利申请数

一、背景

在专利数据处理中,我们常常需要分析不同类型专利下申请人的活跃度。例如,给定一个专利明细表 t_patent_detail,其中包含专利号、专利名称、专利类型、申请时间、授权时间和申请人等信息,且一个专利可能有多个申请人(以分号隔开)。我们的目标是找出各类型专利 top10 申请人以及他们对应的专利申请数。

二、数据结构

我们的数据存储在名为 t_patent_detail 的表中,其表结构如下:

  • 专利号(patent_id):每个专利的唯一标识符。
  • 专利名称(patent_name):专利的名称,描述专利的内容。
  • 专利类型(patent_type):例如发明创造、实用新型等不同类型的专利分类。
  • 申请时间(aplly_date):专利申请的日期。
  • 授权时间(authorize_date):专利获得授权的日期。
  • 申请人(apply_users):一个或多个申请人的名称,多人之间以分号分隔。

以下是一些示例数据:

patent_idpatent_namepatent_typeaplly_dateauthorize_dateapply_users
CN201821413799.7一种用于合金板棒材的往复式感应加热设备发明创造2018/8/302019/8/9朱春野
CN201911153500.8转化 DNA 回收率的检测方法及引物发明创造2019/11/222020/1/10陶启长;韦东
CN202011144174.7一种经修饰荧光探针及其应用发明创造2020/10/232020/11/20陶启长;韦东;余明伟
CN201920792416.X适用于中型桌面仪器的隔离装置实用新型2019/5/292020/4/17许亦琳;余明伟;杨华
CN201920973176.3一种高性价离心管冻存盒实用新型2019/6/262020/4/17许亦琳;余明伟;邬剑星;王敏生

三、查询思路

  1. 第一步:处理申请人字段
    由于每个专利可能有多个申请人,我们需要将申请人字段“炸裂”(使用 Hive 的 explode 函数),将每个申请人拆分成单独的行。这里使用 split 函数将以分号分隔的申请人字符串拆分成数组,然后使用 explode 函数将数组中的每个元素(即每个申请人)展开。
  2. 第二步:分组统计
    对处理后的申请人进行分组,并使用 count(*) 函数统计每个申请人的专利申请数。同时,使用 rank() 函数按照专利申请数进行排名,以便后续找出 top10 申请人。

四、Hive 查询语句解析

以下是实现上述功能的 Hive 查询语句:

--各类型专利 top10 申请人,以及对应的专利申请数
select t1.apply_name `申请人`,count(*) `专利申请数`,rank() over(order by
count(*) desc) `专利数排名`
from (--先将申请人字段炸裂select d.*, t1.coll `apply_name`from t_patent_detail dlateral view explode(split(apply_users,';')) t1 as coll
) t1
group by t1.apply_name; --按照申请人分组
  • 在子查询中:
    • from t_patent_detail d 从专利明细表开始查询。
    • lateral view explode(split(apply_users,';')) t1 as coll 这部分是关键。首先,split(apply_users,';')apply_users 字段(申请人字段)按照分号进行拆分,得到一个申请人名称的数组。然后,explode 函数将这个数组展开,每个元素(申请人名称)成为单独的一行。t1 是一个临时表别名,coll 是展开后的申请人名称列的别名。d.* 表示选择原始表中的所有其他列。
  • 在外部查询中:
    • group by t1.apply_name 按照申请人名称进行分组。
    • count(*) 统计每个申请人的专利申请数。
    • rank() over(order by count(*) desc) 使用 rank 函数按照专利申请数降序排名,这里虽然没有筛选 top10 的步骤,但可以根据这个排名在后续进一步处理得到 top10 的结果。

http://www.ppmy.cn/news/1546397.html

相关文章

昇思大模型平台打卡体验活动:项目5基于MindSpore实现Transformer机器翻译

首先仍然是先登录大模型体验平台 https://xihe.mindspore.cn/my/clouddev 启动!! 进入环境之后,即可开始运行notebook, Transformer 模型与实现 Transformer 是一种由 Vaswani 等人在 2017 年提出的神经网络结构(论文…

parallelStream()使用注意点

parallelStream()使用中的注意点: 1、并行流如果使用,最好使用自定义的线程池,避免使用默认的线程池,以免千万阻塞或者资源竞争等问题。 2、parallelStream适用的场景是CPU密集型的,假如本身电脑CPU的负载很大&#…

Maven最佳实践

文章目录 1.摘要 本文主要介绍Maven使用,作为Maven使用手册来记录。 2.介绍 Maven是项目管理工具,将项目开发和管理过程抽象成一个项目对象模型,使用pom.xml 文件进行依赖管理和项目构建。 Maven 中pom.xml 是根据坐标信息来定位资源的位置&a…

什么是网络安全CTF有何意义?该如何入门?

什么是网络安全CTF?有何意义 ?该如何入门 ? 什么是网络安全CTF? CTF在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。它起源于1996年DEFCON,以代替之前通过互相发起真实攻击进行技术比拼的方式。发展至今&#xff…

11.11机器学习_介绍和定义

一、 机器学习介绍与定义 1. 机器学习定义 机器学习(Machine Learning)本质上就是让计算机自己在数据中学习规律,并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习(Deep…

单体架构 IM 系统之长轮询方案设计

在上一篇技术短文(单体架构 IM 系统之核心业务功能实现)中,我们讨论了 “信箱模型” 在单体架构 IM 系统中的应用,“信箱模型” 见下图。 客户端 A 将 “信件” 投入到客户端 B 的 “信箱” 中,然后客户端 B 去自己的 …

链表循环及差集相关算法题|判断循环双链表是否对称|两循环单链表合并成循环链表|使双向循环链表有序|单循环链表改双向循环链表|两链表的差集(C)

判断循环双链表是否对称 设计一个算法用于判断带头节点的循环双链表是否对称 算法思想 让left从左向右扫描,right从右向左扫描,直到它们指向同一个节点:left right 或相邻left->next right,或right->prev left&#x…

【AI技术】PaddleSpeech部署方案

【AI技术】PaddleSpeech部署方案 技术介绍优点缺点 部署基础环境的搭建分步详解国内镜像源切换所需环境1 g所需环境2 vim所需环境3 cuda所需环境4 cudnn所需环境5 ssl源码拉取PaddleSpeech环境安装 部署文件分享DockerHub 技术介绍 PaddleSpeech是飞浆平台的一款TTS框架。 优…