Milvus的相似度指标

news/2024/11/29 12:39:13/

官网:https://milvus.io/docs/metric.md
版本: v2.3.x

在 Milvus 中,相似度度量用于衡量向量之间的相似度。选择良好的距离度量有助于显着提高分类和聚类性能。
下表展示了这些广泛使用的相似性指标如何与各种输入数据形式和 Milvus 索引相匹配。

一、浮点型向量

image.png

1.1 欧式距离L2

本质上,欧氏距离测量连接 2 个点的线段的长度。欧氏距离的公式如下:
image.png
其中 a = (a0, a1,…, an-1) 和 b = (b0, b0,…, bn-1) 是 n 维欧几里德空间中的两个点 这是最常用的距离度量。
PS:当选择欧几里德距离作为距离度量时,Milvus 仅在应用平方根之前计算值

1.2 内积IP

image.png
如果您需要比较非标准化数据或当您关心幅度和角度时,IP 会更有用。
PS: 如果您使用 IP 来计算嵌入相似度,则必须对嵌入进行标准化。归一化后,内积等于余弦相似度。

1.3 余弦相似度

余弦相似度使用两组向量之间的角度的余弦来衡量它们的相似程度。您可以将两组向量视为从同一原点 ([0,0,…]) 开始但指向不同方向的两条线段。要计算两组向量 A = (a0, a1,..., an-1)B = (b0, b1,..., bn-1) 之间的余弦相似度,请使用以下公式:
image.png
余弦相似度始终在区间 [-1, 1] 内。
例如,两个比例向量的余弦相似度为 1,两个正交向量的相似度为 0,两个相反的向量的相似度为 -1。余弦越大,两个向量之间的角度越小,表明这两个向量彼此更相似。用 1 减去它们的余弦相似度,就可以得到两个向量之间的余弦距离。

二、2值型向量

有Jaccard、Hamming如下两种:
image.png

2.1 Jaccard杰卡德距离

杰卡德相似系数(Jaccard similarity coefficient):两个集合 A 和 B 的交集元素在 A,B 的并集中所占的比例,称为两个集合的杰卡德相似系数,则其表达式为:
image.png
image.png
它只能应用于有限的样本集。
杰卡德距离衡量数据集之间的不相似性,由1减去杰卡德相似系数得到,与杰卡德相似系数相反,用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。对于二元变量,杰卡德距离相当于谷本系数(Tanimoto coefficient)。
杰卡德距离的表达式为:
image.png

2.2 Hamming汉明距离

汉明距离(Hamming Distance)可以用来计算长度相等两个向量的相似度;

  • 汉明距离的计算方式为:比较向量的每一位是否相同,若不同则汉明距离加1,这样即可得到汉明距离。向量相似度越高,对应的汉明距离越小。
  • 汉明距离可以比较两个二进制串,a=11101010,b=11011010。a和b两个二进制串不同的位数为2,则汉明距离为2。

例如,假设有两个字符串 1101 1001 和 1001 1101。 11011001 ⊕ 10011101 = 01000100。由于其中包含两个 1,因此汉明距离 d (11011001, 10011101) = 2。


如果有用,请点个三连呗 `点赞、关注、收藏`。
***你的鼓励是我最大的动力***

http://www.ppmy.cn/news/1379655.html

相关文章

论文笔记:Evaluating the Performance of Large Language Models on GAOKAO Benchmark

1 论文思路 采用zero-shot prompting的方式,将试题转化为ChatGPT的输入 对于数学题,将公式转化为latex输入 主观题由专业教师打分 2 数据 2010~2022年,一共13年间的全国A卷和全国B卷 3 结论 3.1 不同模型的zeroshot 高考总分 3.2 各科主…

WPF —— TextBlock、LineBreak RadioButton控件详解

一:TextBlock 1&#xff1a;TextBlock 简介 <LineBreak/> 换行 显示文本 标签内容和content属性共存 2、TextBlock 常用的属性 Foreground&#xff1a;TextBlock的文本内容的颜色。 Background&#xff1a;背景&#xff0c;获取或设置要用于填充内容区域背景的 Brush…

分享一款通过AI将图片生成html的开源软件

开源地址&#xff1a; https://gitee.com/itbuilder/image2code 功能说明 该软件使用AI识别图片内容&#xff0c;并生成所需的html代码 可支持如下语言 BootstrapVue TailwindVue Element UIReact Tailwind

Python高级二

一、异常 1、定义 异常是在程序执行过程中出现的错误或意外情况。当程序遇到异常时&#xff0c;它会中断当前的执行流程&#xff0c;并尝试找到相应的异常处理机制来解决问题。 2、常见异常类型 SyntaxError&#xff1a;语法错误&#xff0c;通常是代码书写不符合Python语法规则…

C语言基础练习——Day05

目录 选择题 编程题 数字在升序数组中出现的次数 整数转换 选择题 1、如下程序的功能是 #include <stdio.h> int main() {char ch[80] "123abcdEFG*&";int j;puts(ch);for(j 0; ch[j] ! \0; j){if(ch[j] > A && ch[j] < Z)ch[j] ch[j] e…

【Go】探索Go语言中的关于defer的应用

冬来的秋去 像记忆裂痕 又再变更空枕触遗憾 半梦半醒侵沾眼晴的泪痕 每晚夜深妄想真情接近 绻梦绻恋一宵雨侵悲不禁 永远最相衬 但愿梦里是永恒 ——《永远之后-黄艺明》 在Go语言中&#xff0c;defer语句是一个非常强大且常用的特性&#xff0c;它允许我们在函数结束时执行一些…

首次实现Go调用C的dll文件

首先&#xff0c;要使用Go调用C的DLL文件&#xff0c;你需要遵循以下步骤&#xff1a; 编写C代码&#xff1a; 首先&#xff0c;编写你的C代码&#xff0c;并将其编译成DLL文件。假设你有一个名为example.c的C源文件&#xff0c;其中包含你要调用的函数。 // example.c #includ…

长期异地就医备案有效期是多久?答记者问!

4、长期异地就医登记的有效期是多长&#xff1f; 答&#xff1a;异地长期就医登记长期有效。 如果您因个人原因需要变更长期居住地&#xff0c;只需提供相应的登记信息即可申请变更。 5、临时异地就医登记的有效期是多长时间&#xff1f; 答&#xff1a;临时异地就医登记包括…