Java 计算文本相似度

news/2024/11/18 0:27:45/

接受一个字符串和一个字符串列表作为参数的 Java 方法,用于计算两个字符串之间的相似度。

方法

import java.util.HashSet;
import java.util.List;
import java.util.Set;public class StringSimilarity {/*** 计算两个字符串之间的相似度* @param str1 第一个字符串* @param list1 第一个字符串列表* @return 与传入的字符串最相似的字符串*/public static String findMostSimilarString(String str, List<String> list1) {// 将字符串列表转换为集合,以便进行快速查找Set<String> set1 = new HashSet<>(list1);// 从集合中移除第一个字符串,因为我们要比较的是它与其他字符串的相似度set1.remove(str);// 计算第一个字符串与其他字符串的交集大小long intersectionSize = set1.stream().filter(s -> s.equals(str)).count();// 计算第一个字符串的长度long strLength = str.length();// 计算所有字符串的总长度long unionSize = set1.size() + strLength - intersectionSize;// 计算相似度值(0-1之间)double similarity = (double) intersectionSize / unionSize;// 找到与传入的字符串最相似的字符串String mostSimilarString = null;double maxSimilarity = Double.MIN_VALUE;for (String s : list1) {// 计算当前字符串与传入的字符串的相似度double currentSimilarity = calculateSimilarity(str, s, list1);// 如果当前相似度大于最大相似度,则更新最大相似度和最相似的字符串if (currentSimilarity > maxSimilarity) {maxSimilarity = currentSimilarity;mostSimilarString = s;}}return mostSimilarString;}/*** 计算两个字符串之间的相似度* @param str1 第一个字符串* @param str2 第二个字符串* @param list2 第二个字符串列表* @return 相似度值(0-1之间)*/private static double calculateSimilarity(String str1, String str2, List<String> list2) {// 将字符串列表转换为集合,以便进行快速查找Set<String> set2 = new HashSet<>(list2);// 从集合中移除第二个字符串,因为我们要比较的是它与第一个字符串的相似度set2.remove(str2);// 计算第一个字符串与第二个字符串的交集大小long intersectionSize = set2.stream().filter(s -> s.equals(str2)).count();// 计算第一个字符串的长度long strLength = str1.length();// 计算所有字符串的总长度long unionSize = set2.size() + strLength - intersectionSize;// 返回相似度值(0-1之间)return (double) intersectionSize / unionSize;}
}

使用示例

List<String> list1 = Arrays.asList("apple", "banana", "orange");
String str = "banana";
String mostSimilarString = StringSimilarity.findMostSimilarString(str, list1);
System.out.println("Most similar string: " + mostSimilarString); // 输出:banana

http://www.ppmy.cn/news/1055641.html

相关文章

前端工程化概述

软件工程定义&#xff1a;将工程方法系统化地应用到软件开发中 前端发展历史 前端工程化的发展历史可以追溯到互联网的早期阶段&#xff0c;随着前端技术的不断演进和互联网应用的复杂化&#xff0c;前端工程化也逐渐成为了前端开发的重要领域。以下是前端工程化的主要发展里程…

2023年7月天猫糕点市场数据分析(天猫数据怎么看)

烘焙食品行业是近几年食品领域比较火热的赛道之一&#xff0c;随着居民饮食结构的变化&#xff0c;人均消费水平的上升&#xff0c;蛋糕、面包等烘焙糕点越发成为消费者饮食的重要组成部分。同时&#xff0c;在烘焙糕点市场中&#xff0c;老品牌不断推新迭变&#xff0c;新品牌…

朴素贝叶斯==基于样本特征来预测样本属于的类别y

目录 朴素贝叶斯基于样本特征来预测样本属于的类别y 朴素贝叶斯算法的基本概念与核心思想 假设两个特征维度之间是相互独立的 拉普拉斯平滑增加出现次数保证0不出现 ​编辑 基于样本特征来预测样本属于的类别y 什么是拉普拉斯平滑 朴素贝叶斯基于样本特征来预测样本属于的…

openGauss学习笔记-48 openGauss 高级数据管理-函数

文章目录 openGauss学习笔记-48 openGauss 高级数据管理-函数48.1 数学函数48.2 三角函数列表48.3 字符串函数和操作符48.4 类型转换相关函数 openGauss学习笔记-48 openGauss 高级数据管理-函数 openGauss常用的函数如下&#xff1a; 48.1 数学函数 abs(x) 描述&#xff1a;…

rabbitmq卸载重写安装3.8版本

卸载之前的版本的rabbitmq 卸载rabbitmq 卸载前先停止rabbitmq服务 /usr/lib/rabbitmq/bin/rabbitmqctl stop查看rabbitmq安装的相关列表 yum list | grep rabbitmq卸载rabbitmq相关内容 yum -y remove rabbitmq-server.noarch 卸载erlang 查看erlang安装的相关列表 …

自带云盘的内网即时通讯软件,保障数据在公司局域网内安全流通

在信息时代&#xff0c;很多对于内部机密性要求较高的企业&#xff0c;都不惜成本地选择在内网搭建专属的私有化即时通讯系统。企业员工在内部通讯与协同办公的时候&#xff0c;会分享一些文件、文档等资料&#xff0c; 为了保证所有在通讯软件流通的文件&#xff0c;就需要选…

python并发编程

一、程序提速的方法 二、python对并发编程的支持 多线程&#xff1a;threading&#xff0c;利用CPU和IO可以同时执行的原理&#xff0c;让CPU不会干巴巴等待IO完成&#xff1b;多进程&#xff1a;multiprocess&#xff0c;利用多核CPU的能力&#xff0c;真正的并行执行任务&am…

工厂方法模式介绍

韩敬海 设计模式&#xff08;Java版&#xff09; &#xff08;一&#xff09;定义 定义一个创建对象的接口&#xff0c;让子类决定实例化哪个类。工厂方法使一个类的实例化延迟到其子类。 工厂方法涉及的角色有&#xff1a; 1 .抽象工厂角色&#xff1a;工厂方法模式的核心&am…