基于专利合作地址匹配的数据构建区域协同矩阵

ops/2025/3/5 1:39:46/

文章目录

    • 地区地址提取
    • 完成的处理代码

在专利合作申请表中,有多家公司合作申请。在专利权人地址中, 有多个公司的地址信息。故想利用这里多个地址。想用这里的地址来代表区域之间的专利合作情况代表区域之间的协同、协作情况。

下图是专利合作表的一部分:

image-20250227200812529

最终的结果:

image-20250227201838199

假设在一个专利的地址中,有1家成都公司,1家武汉公司,2家北京公司:

成都市,武汉市,北京市,北京市

首先计算这些区域两两合作的关系:

import pandas as pd
from itertools import permutations
from collections import Counter
d = Counter(list(permutations(["成都市", "武汉市", "北京市", "北京市"], r=2)))
d

输出:

Counter({('成都市', '北京市'): 2,('武汉市', '北京市'): 2,('北京市', '成都市'): 2,('北京市', '武汉市'): 2,('北京市', '北京市'): 2,('成都市', '武汉市'): 1,('武汉市', '成都市'): 1})
rows = []
cols = []
values = []for k, v in d.items():row, col = krows.append(row)cols.append(col)values.append(v)demo_matrix = pd.DataFrame({"row": rows,"col": cols,"value": values,}
)
demo_df = demo_matrix.pivot(index="row", columns="col", values="value")
demo_df.fillna(0, inplace=True)
demo_df

输出:

image-20250227202716646

上述只是使用了一个专利合作地址构建的合作矩阵。特意选取了其中有多个同一个地区的例子进行展示。如上述例子中,同一个专利中有两家北京的企业,那么 北京-北京 的权重是2。代表了这个区域内部的合作关系。

地区地址提取

从专利的地址中,提取出省市信息。
最开始想的是写一个正则表达式,提取省市区,但是后面发现这不可行,因为会有自治区、省道,这些特殊名称的干扰。

为了达到比较高的准确率,我收集了全国66万个行政区划代码表,在其中逐个与专利的地址逐个对应。通过这种方式可以保证比较高的准确率。

image-20250227203734452

由于本次使用省与市的地址,使用下述代码筛选出只有省和市的数据,筛选代码如下:

address_df = pd.read_csv("66万个全国各级行政区划代码表.csv")
def is_str(item):return isinstance(item, str) and len(item) > 0
idxs = ((address_df["1"].apply(is_str))& (address_df["2"].apply(is_str))& (~address_df["3"].apply(is_str))
)
address_filter_df = address_df[idxs]
address_filter_df = address_filter_df.drop(columns=["3", "4", "5"])
address_filter_df = address_filter_df.rename(columns={"1": "prov", "2": "city"})

下图展示全国342个市级单位:

address_filter_df.head(), address_filter_df.shape

image-20250227203959220

完成的处理代码

处理整个表格的时候,把所有专利的区域合作次数加起来的代码如下:

加载专利合作表:

def split_address(text):if not isinstance(text, str):return []text = re.split(";", text)text = [item.strip() for item in text if len(item.strip()) > 0]return textaddress1 = "当前专利权人地址"
address2 = "工商注册地址"df = pd.read_excel("20250212合作申请.xlsx")

下述代码实现了,从专利地址中抽取出省市信息:

def extract_address(df, address) -> Dict:# 首先是直辖市判断Four_Municipality = ["北京市", "上海市", "天津市", "重庆市"]for item in Four_Municipality:if item in address:return {"prov": item, "city": ""}for _, row in df.iterrows():prov = row["prov"]city = row["city"]if prov in address and city in address:return {"prov": prov, "city": city}print(f"error not find prov and city, {address}")return None

利用抽取出的省、市,构建矩阵

def build_marix(attr_name):addresses = df[address1].map(split_address).tolist()ans = {}for row_address in addresses:row_address_parse = []for address in row_address:address_parse = extract_address(address_filter_df, address)if address_parse is None:continuerow_address_parse.append(address_parse)row_address_parse = [tmp["prov"] + " " + tmp["city"] for tmp in row_address_parse]row_address_cnt = Counter(list(permutations(row_address_parse, r=2)))for k, v in row_address_cnt.items():if k not in ans.keys():ans[k] = 0ans[k] += vrows = []cols = []values = []for k, v in ans.items():row, col = krows.append(row)cols.append(col)values.append(v)df_matrix = pd.DataFrame({"row": rows,"col": cols,"value": values,})pivot_df = df_matrix.pivot(index="row", columns="col", values="value")pivot_df.fillna(0, inplace=True)pivot_df.to_excel(f"{attr_name}.xlsx")

项目文件夹的内容如下:

image-20250227204945954


http://www.ppmy.cn/ops/163175.html

相关文章

深入解析 ASP.NET Core 的内存管理与垃圾回收优化

在现代高并发的 Web 应用中,内存管理和垃圾回收(GC)是影响性能和稳定性的重要因素。ASP.NET Core 作为基于 .NET Core 平台的高效 Web 框架,其内存管理和垃圾回收机制设计上考虑了高吞吐量、低延迟的需求。在本文中,我…

刷题日记——部分二分算法题目分享

前言 咱们紧跟上一期结合时间复杂度浅谈二分法的好处, 并分享部分二分题目(将持续更新题目,绝对值你一个收藏)-CSDN博客 笔者接着分享一些刷过的关于二分算法的题目. 第一题 1283. 使结果不超过阈值的最小除数 - 力扣(LeetCode) 这道题就是典型的二…

新版AndroidStudio 修改 jdk版本

一、问题 之前,在安卓项目中配置JDK和Gradle的过程非常直观,只需要进入Android Studio的File菜单中的Project Structure即可进行设置,十分方便。 如下图可以在这修改JDK: 但是升级AndroidStudio之后,比如我升级到了Android St…

【Python 3.12.1 颠覆性升级:GIL 解锁与性能飞跃,开启多线程新时代】

(示意图:Python 多线程性能爆炸式增长) 一、Python 3.12.1 的五大核弹级更新 1. GIL 的终结:多线程性能提升 300% Python 3.12.1 首次支持通过 --disable-gil 编译选项彻底移除全局解释器锁(GIL)&#xf…

我国牵头制定养老机器人国际标准 为全球银发经济提供技术基准

大湾区经济网湾区财经报道,据国际电工委员会(IEC)近日正式发布由中国牵头制定的养老机器人国际标准IEC63310《互联家庭环境下使用的主动辅助生活机器人性能准则》。北京外国语大学教授、京津冀服务贸易协同发展智库专家指出,该标准…

Java 关键字 volatile

volatile 是 Java 中的一个关键字,用于修饰变量,确保多线程环境下的可见性和有序性。它主要用于解决以下两个问题: 可见性问题:一个线程对 volatile 变量的修改对其他线程立即可见。有序性问题:禁止指令重排序&#x…

分布式锁—2.Redisson的可重入锁一

大纲 1.Redisson可重入锁RedissonLock概述 2.可重入锁源码之创建RedissonClient实例 3.可重入锁源码之lua脚本加锁逻辑 4.可重入锁源码之WatchDog维持加锁逻辑 5.可重入锁源码之可重入加锁逻辑 6.可重入锁源码之锁的互斥阻塞逻辑 7.可重入锁源码之释放锁逻辑 8.可重入锁…

本地部署 Traefik 的完整教程

Traefik 是一款现代化的反向代理和负载均衡工具,专为云原生环境设计。它支持自动服务发现、动态配置更新以及多种后端(如 Docker、Kubernetes、Consul 等)。本教程将指导你如何在本地部署 Traefik,并配置其作为反向代理和负载均衡器。 1. 准备工作 在开始之前,请确保你的…