LCS算法(文本相似度计算)

devtools/2025/3/29 3:39:10/

文章目录

  • 1.dp
  • 2.dp(单数组优化)

LCS,Longest Common Subsequenc,最长公共子序列,子序列在原序列中可以不连续,但必须先后顺序保持一致。例如ABCD中,BD是一个子序列,DB不是。

LCS常被用来计算文本相似度,其中的一种相似度计算方式:
在这里插入图片描述
这种计算方式的优点是可以平衡两文本长度差异,更公平。

1.dp

def lcs(s1, s2):"""定义状态:dp[i][j]表示s1前i个字符和s2前j个字符的最长公共子序列得到两种情况下的转移方程:1) s1[i-1]=s2[j-1]: 此时 dp[i][j]=dp[i-1][j-1]+12) s1[i-1]≠s2[j-1]: 此时 dp[i][j]=max(dp[i-1][j], dp[i][j-1])当i=0或j=0时,前i或前j个字符空字符串,所以最长子序列长度都为0:param s1::param s2::return:"""s1, s2 = ' ' + s1, ' ' + s2  # 添加占位符方便下标计算len_s1, len_s2 = len(s1), len(s2)dp = [[0] * len_s2] * len_s1for i in range(len_s1):for j in range(len_s2):if i * j == 0:continueif s1[i] == s2[j]:dp[i][j] = dp[i - 1][j - 1] + 1else:dp[i][j] = max(dp[i - 1][j], dp[i][j - 1])return dp[-1][-1], dp[-1][-1] * 2 / (len_s1 + len_s2)  # 返回lcs长度和相似度if __name__ == '__main__':addr1 = '北京市海淀区西北旺路10号'addr2 = '北京海淀西北旺路附近'print(lcs(addr1, addr2))# (8, 0.64)

这种实现方式需要双重循环遍历两个序列,所以时间复杂度和空间复杂度都是O(mn),m、n为两个序列的长度。

2.dp(单数组优化)

主要针对空间复杂度进行优化,上面实现方式构建的dp数组是m x n,可以通过下面单数组优化的方式将空间复杂度降到O(min(m, n))。

实现中以短文本的长度构建数组,外层循环遍历长文本,内层循环遍历短文本。下面代码为了方便没有做这个逻辑处理,空间复杂度是O(len(s2))。

def lcs(s1, s2):"""原来的二维数组的更新方式是从左到右,从上到下。、将这个二维数组想象成一个矩阵,每次更新一个dp[i][j]时,只参考了三个位置的值:1) dp[i-1][j-1]: 左上位置2) dp[i][j-1]: 左边位置3) dp[i-1][j]: 上方位置因此,只需要这个矩阵中j所在的数组长度就可以替代二维数组。定义dp[j]为s1与s2前j个元素的最长子序列长度,则没i轮迭代中dp[j]的值表示s1前i个字符和s2中前j个字符的最长子序列长度。因为数组是从左往右覆盖更新,因此:1) dp[j]=dp[i-1][j]    2) dp[j-1]=dp[i][j-1]此时只需要解决dp[i-1][j-1]位置的元素获取。设这个变量名left_up,每次外层循环初始为0,表示内层遍历的文本长度为0时的最长子序列长度。内层循环中,dp[j]在更新之前表示dp[i-1][j],因此只需要在每次dp[j]更新后将更新之前的dp[j]赋值给left_up,这样在下一个j的循环中left_up其实就是dp[i-1][j-1],也就是当前位置的左上角元素。:param s1::param s2::return:"""s1, s2 = ' ' + s1, ' ' + s2len_s1, len_s2 = len(s1), len(s2)dp = [0] * len_s2for i in range(len_s1):left_up = 0for j in range(len_s2):temp = dp[j]if i * j == 0:continueif s1[i] == s2[j]:dp[j] = left_up + 1else:dp[j] = max(dp[j - 1], dp[j])left_up = tempreturn dp[-1], dp[-1] * 2 / (len_s1 + len_s2)  # 返回lcs长度和相似度if __name__ == '__main__':addr1 = '北京市海淀区西北旺路10号'addr2 = '北京海淀西北旺路附近'print(lcs(addr1, addr2))# (8, 0.64)

http://www.ppmy.cn/devtools/168812.html

相关文章

CentOS 8 停止维护后通过 rpm 包手动安装 docker

根据 Docker官方文档 的指引,进入 Docker rpm 包下载的地址,根据自己系统的架构和具体版本选择对应的路径 这里使用 Index of linux/centos/7/x86_64/stable/ 版本,根据 docker 官方的给出的安装命令选择性的下载对应的 rpm 包 最终使用 yum …

【OCR】总结github上开源 OCR 工具:让文字识别更简单

前言 在数字化的时代,光学字符识别(OCR)技术成为了我们处理文档、图像文字信息的得力助手。它能够将图像中的文字信息转换为可编辑和可处理的文本数据,极大地提高了信息处理的效率。今天,我要给大家介绍一些优秀的开源…

在 VSCode 远程开发环境下使用 Git 常用命令

在日常开发过程中,无论是单人项目还是团队协作,Git 都是版本管理的利器。尤其是在使用 VSCode 连接远程服务器进行代码开发时,Git 不仅能帮助你管理代码版本,还能让多人协作变得更加高效。本文将介绍一些常用的 Git 命令&#xff…

FastJson:JSON JSONObject JSONArray详解以及SimplePropertyPreFilter 的介绍

FastJson:JSON JSONObject JSONArray详解以及SimplePropertyPreFilter 的介绍 FastJson是阿里巴巴开发的一款专门用于Java开发的包,实现Json对象,JavaBean对,Json字符串之间的转换。 文章目录 FastJson:JSON JSONObje…

国思RDIF低代码快速开发框架 v6.2版本发布

1、平台介绍 国思RDIF企业级低代码开发平台,给用户和开发者最佳的框架平台方案,为企业快速构建跨平台、企业级的应用提供强大支持。致力于解决企业信息化项目交付难、实施效率低、开发成本高的问题。能帮助企业快速构建美观易用、架构专业、安全可控的企…

Elasticsearch基础教程:从入门到上手

🎯 一、Elasticsearch简介 Elasticsearch(简称ES)是一个分布式、RESTful风格的搜索引擎,支持全文检索、结构化查询、分析和近实时搜索。常用于日志分析、商品搜索、数据分析等场景。 1. 什么是 Elasticsearch? Elas…

以太坊生态中有代币标准和协议,针对不同场景设计了丰富的功能

一、同质化代币(Fungible Tokens) 1. ERC-20(基础标准) 用途:同质化代币(如 USDT、UNI)。 特点:标准化转账和授权接口。 2. ERC-777(增强版 ERC-20) 改进…

Python----计算机视觉处理(Opencv:图像颜色替换)

一、开运算 开运算就是对图像先进行腐蚀操作, 然后进行膨胀操作。开运算可以去除二值化图中的小的噪点,并分离相连的物体。 其主要目的就是消除那些小白点 在开运算组件中,有一个叫做kernel的参数,指的是核的大小,通常…