聚类性能度量

server/2024/9/23 6:30:26/

        在机器学习中,聚类是一种无监督学习,那对于聚类结果,我们应该如何评估其好坏呢?我们这里介绍两类性能度量

1.外部指标

        外部指标的意思是将聚类结果与某个“参考模型”进行比较。哎其实也很好理解,就相当于老师批改卷子一样,肯定是对着参考答案改,同学们的答案肯定是千奇百怪的啦~,这里同学们的答案就相当于各种各样的聚类结果,参考答案就相当于参考模型呗(有没有感觉有点像监督学习)

        我们先来看看西瓜书中的一些定义:

        哇,这公式这么复杂呀,这是干嘛的?别慌别慌,其实不难理解,它是把聚类结果和参考模型的进行对比,就相当于你老师在给你批改卷子的过程,它是两个点两个点进行对比的,SS意思就是(same,same)就是你聚类结果里面的两个点和参考模型里面的两个点的分类是一样的,SD(same,different)意思是聚类结果里面这两个点分类是一样的,但是参考模型这两个点分类是不一样的;后面的意思以此类推。它是遍历里面的所有点,假如说,我现在拿第一个点,然后遍历簇中的所有点对比,再拿第二个点,遍历编号大于2的所有点进行对比,然后以此类推。我们来看个例子,如下图

在我们这个例子中有5个点,给出了一个聚类结果,然后和参考模型对比,先拿点1和其余四个点对比,然后在那点2和大于2的三个点对比,以此类推,记录每个集合元素的个数,最后的总数就是上述的公式可以计算出。

基于上述的分组我们就可以导出一些常用的聚类性能度量外部指标:

我们依然拿上面的例子来理解这些公式,如下图

如图所示,我们把参考模型和聚类结果那样一放,小伙伴们有没有想到什么呀?是不是和下面的表有点相似呀

哎差不多的,你看看,SS不就相当于TP的位置嘛?其他也一样,那三个性能度量公式分子都和“TP”“TN”有关,那肯定值越大越好呗。

2.内部指标

        然后我们再来看看内部指标,先看一下书上的定义,如图:

哦豁,又一大坨,没关系,我们接着用例子说明,如图:

结合图中的例子再对应上述的公式,怎么样?不难理解叭~

此时,我们看一下内部指标

        式子看着长,其实也不难昂,别慌,我们一起来看看,DBI的公式中其实就是把上述的四个公式组合一下,然后多了个求最大值函数和求和,然后这个DBI为什么越小越好?你看啊,公式里面分母的位置是两个簇中心点的距离那肯定是越大越好,分子是簇内样本间的平均距离,那肯定是越小越好,这样综合来看,最后肯定是DBI的值越小越好。

        DI的式子分母是不同簇最近样本间的距离,那肯定是越大越好,分母是样本间的最远距离,那肯定是越小越好,这样样本越集中嘛,那整体来看,就是DI的值越大越好。

ok,这篇就到这里啦,欢迎小伙伴们批评指正~(图片知识来源于西瓜书,例子来源于b站up主致敬大神)


http://www.ppmy.cn/server/48786.html

相关文章

【车载音视频电脑】双卡式行车记录仪,带AI识别分析,支持4路AHD 1080p高清输入

一、产品外观 外观专利设计,铝合金材质,散热好、小巧、易安装;塑胶前面板,美观简洁大方,有独立锁。 二、产品特点 支持4路AHD高清输入1080P*30FPS、720P、D1、CIF分辨率等;支持接IPC,用网口&a…

StarkNet架构之L1-L2消息传递机制

文章目录 StarkNet架构之L1-L2消息传递机制L2 → L1消息L2 → L1消息结构L2 → L1消息哈希L1 → L2消息L1 → L2消息取消L1 → L2报文费用L1 → L2哈希额外资源StarkNet架构之L1-L2消息传递机制 原文地址:https://docs.starknet.io/architecture-and-concepts/network-archit…

Redis中的Lua脚本

EVAL 命令 命令格式 EVAL script numkeys key [key ...] arg [arg ...]命令说明 1、script 参数: 一段Lua脚本程序,会在Redis服务器上下文中运行,不需要(也不应该)定义为一个Lua函数。 2、numkeys 参数&#xff1…

计算机专业之我见

计算机科学与技术、人工智能、网络安全和软件工程都是技术驱动的领域。新技术的不断推出和现有技术的改进,推动了这些领域的持续发展。例如,人工智能从传统的机器学习发展到深度学习,甚至现在的生成对抗网络(GANs)和强…

c++【入门】求三个数的平均数

限制 时间限制 : 1 秒 内存限制 : 128 MB 题目 小雅刚刚考完语文、数学、英语的三门期中考试,她想请你编个程序来帮她算算她的平均分,要求输入三个正整数,分别表示三科考试的分数,输出它们的平均值。 输入 一行,…

记录pytest中场景执行的token异常处理问题

前言中写了一个conftest钩子函数用于处理重复调用token的方法,http://t.csdnimg.cn/N4rCK,每个用例单独执行都很正常,但是批量执行时一直报错,token缓存处理也不生效。 所有的用例都报获取不到token,方法改了又改&…

【数据结构】排序——插入排序,选择排序

前言 本篇博客我们正式开启数据结构中的排序,说到排序,我们能联想到我之前在C语言博客中的冒泡排序,它是排序中的一种,但实现效率太慢,这篇博客我们介绍两种新排序,并好好深入理解排序 💓 个人主…

C# WPF入门学习主线篇(二十八)—— 使用集合(ObservableCollection)

C# WPF入门学习主线篇(二十八)—— 使用集合(ObservableCollection) 在WPF中,数据绑定是构建动态和响应式用户界面的关键。ObservableCollection是一个特别有用的集合类型,它不仅支持数据绑定,还…