sheng的学习笔记-AI-半监督聚类

news/2024/9/18 21:07:23/ 标签: 人工智能, 机器学习, 聚类

AI目录:sheng的学习笔记-AI目录-CSDN博客

半监督学习:sheng的学习笔记-AI-半监督学习-CSDN博客 

聚类:sheng的学习笔记-AI-聚类(Clustering)-CSDN博客

均值算法:sheng的学习笔记-AI-K均值算法_k均值算法怎么算迭代两次后的最大值-CSDN博客

什么是半监督聚类

聚类是一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类(semi-supervised clustering)来利用监督信息以获得更好的聚类效果。

聚类任务中获得的监督信息大致有两种类型。

  1. 第一种类型是“必连”(must-link)与“勿连”(cannot-link)约束,前者是指样本必属于同一个簇,后者是指样本必不属于同一个簇;
  2. 第二种类型的监督信息则是少量的有标记样本。

约束 k 均值算法

什么是约束k均值

约束k均值(Constrained k-means)算法是利用第一类监督信息的代表。

给定样本集D={x1,x2,...,xm}以及“必连”关系集合M和“勿连”关系集合C,(xi,xj)∈M表示xi与xj必属于同簇,(xi,xj)∈C表示xi与xj必不属于同簇。

该算法是K均值算法的扩展,它在聚类过程中要确保M与C中的约束得以满足,否则将返回错误提示

算法

解释如下

 数据表现

令样本x4与x25,x12与x20,x14与x17之间存在必连约束,x2与x21,x13与x23,x19与x23之间存在勿连约束,即

M={(x4,x25),(x25,x4),(x12,x20),(x20,x12),(x14,x17),(x17,x14)},

C={(x2,x21),(x21,x2),(x13,x23),(x23,x13),(x19,x23),(x23,x19)}。

聚类簇数K=3,随机选取样本x6,x12,x27作为初始均值向量

图13.8 西瓜数据集4.0上约束K均值算法(K=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,必连约束和勿连约束分别用实线段与虚线段表示,红色虚线显示出簇划分。

显示出约束K均值算法在不同迭代轮数后的聚类结果。经5轮迭代后均值向量不再发生变化(与第4轮迭代相同)​,于是得到最终聚类结果

C1={x3,x5,x7,x9,x13,x14,x16,x17,x21};

C2={x6,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30}。

约束种子 k 均值算法

什么是约束种子 k 均值

约束种子 k 均值Constrained Seed k-means算法是利用第二类监督的代表。

给定样本集D={x1,x2,...,xm},假定少量的有标记样本为,其中为隶属于第k个聚类簇的样本。

这样的监督信息利用起来很容易:直接将它们作为“种子”​,用它们初始化k均值算法的k个聚类中心,并且在聚类簇迭代更新过程中不改变种子样本的簇隶属关系。这样就得到了约束种子k均值(Constrained Seedk-means)算法

算法代码

解释如下 

数据表现

仍以西瓜数据集4.0为例,

假定作为种子的有标记样本为S1={x4,x25},S2={x12,x20},S3={x14,x17}。

 以这三组种子样本的平均向量作为初始均值向量,图13.10显示出约束种子k均值算法在不同迭代轮数后的聚类结果。经4轮迭代后均值向量不再发生变化(与第3轮迭代相同)​,于是得到最终聚类结果

C1={x1,x2,x4,x22,x23,x24,x25,x26,x27,x28,x29,x30};

C2={x6,x7,x8,x10,x11,x12,x15,x18,x19,x20};

C3={x3,x5,x9,x13,x14,x16,x17,x21}。

图13.10 西瓜数据集4.0上约束种子k均值算法(k=3)在各轮迭代后的结果。

样本点与均值向量分别用“∙”与“+”表示,种子样本点为红色,红色虚线显示出簇划分。

参考文章

12.半监督学习 - 五、半监督聚类 - 《AI算法工程师手册》 - 书栈网 · BookStack

14 半监督学习 - 14.4 半监督聚类 - 《周志华《机器学习》学习笔记》 - 书栈网 · BookStack

书:机器学习 


http://www.ppmy.cn/news/1518324.html

相关文章

论文阅读:VideoMamba: State Space Model for Efficient Video Understanding

论文地址:arxiv 摘要 为了解决视频理解中的局部冗余与全局依赖性的双重挑战。作者将 Mamba 模型应用于视频领域。所提出的 VideoMamba 克服了现有的 3D 卷积神经网络与视频 Transformer 的局限性。 经过广泛的评估提示了 VideoMamba 的能力: 在视觉领…

Zookeeper 日志输出到指定文件夹,并按照日期轮循输出

更改日志输出路径 如果不做修改,zookeeper的日志信息默认都打印到了zookeeper.out文件中,这样输出路径和大小没法控制,因为日志文件没有轮转。所以需要修改日志输出方式。具体操作如下: 1.修改${zkhome}/bin/zkEnv.sh ZOO_LOG_…

我的推荐:腾讯云罗云《从零构建向量数据库》

在2024年8月,好几本和数据库相关的图书相继出版,我以为,这恰恰是数据库领域蓬勃向上的一种表现。 数据库需要更多的人关注,哪怕是谈论,所以我的《数据库简史》是一种尝试,希望以一种科普的风格,…

信息安全数学基础(4)最大公因数

前言 在信息安全数学基础中,最大公因数(Greatest Common Divisor, GCD)是一个核心概念,它在密码学、数论等多个领域都有广泛应用。以下是对最大公因数的详细阐述: 一、定义 设a和b是两个非零整数,若整数d同…

框架 +【Mybatis】概述 以及 基础环境搭建

目录 什么是框架? java后端框架包括 Mybatis概述 1、背景介绍 2、mybatis介绍 Mybatis环境搭建 1.创建一个maven项目 2.导入mysql数据库驱动包 导入mybatis依赖的jar包 3.创建一个全局的mybatis配置文件 4.创建数据库,创建表,准备数据 5.创建一个访问接口…

PHP一体化解决方案高效整合与优化学校管理系统小程序源码

一体化解决方案,让学校管理系统焕发新生✨ 🏫 开篇:传统管理的瓶颈与挑战 在快节奏的教育时代,传统的学校管理系统是否让你感到力不从心?🤔 信息孤岛、流程繁琐、效率低下...这些问题是否正困扰着你的工作…

vue 使用el-table 设置了show-overflow-tooltip属性,路由跳转后,气泡不消失的解决办法

文章目录 一、问题场景二、解决方法1.问题bug2.最终解决 总结 一、问题场景 在vue项目里使用el-table做一个列表页面,表格设置了show-overflow-tooltip属性,文字过长时鼠标滑过会展示气泡显示全部文字内容,因为设置路由缓存,如果…

哈苏相机SD卡数据恢复指南:从格式化到重生

在摄影的世界里,‌哈苏相机以其卓越的画质和精湛的工艺赢得了无数摄影师的青睐。‌然而,‌面对不慎的误操作,‌如SD卡格式化,‌珍贵的照片和视频数据可能瞬间消失,‌这无疑是对摄影师的重大打击。‌本文将深入探讨如何…

PostgreSQL遍历所有的表并为其创建基于某个字段的索引

完整代码 以下以"collect_time"字段为例,其他字段请自行全局替换 DO $$ DECLAREtable_name TEXT;index_name TEXT; BEGIN-- 遍历 public 模式下的所有表FOR table_name IN (SELECT table_nameFROM information_schema.tablesWHERE table_schema publicOR…

网上商城|基于SprinBoot+vue的分布式架构网上商城系统(源码+数据库+文档)

分布式架构网上商城系统 目录 基于SprinBootvue的分布式架构网上商城系统 一、前言 二、系统设计 三、系统功能设计 5.1系统功能模块 5.2管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍…

大语言模型之Qwen2技术报告阅读笔记

QWEN2 TECHNICAL REPORT——2024 核心内容 介绍了Qwen2 大模型系列:基于transformer架构的LLMs 通过以下四个部分来展开介绍: Tokenizer & Model 四个dense models,参数计数为 0.5 亿、15 亿、70 亿和 720 亿一个Mixture-of-Experts (…

svn迁移到git

通过git bash将svn迁移到git上,并保留svn的提交历史。 一、准备 1、在电脑上安装git 2、确认svn账号具备该svn地址的操作权限 3、准备将要操作的svn项目地址、以及该项目下所有提交人的账号信息(在idea工具看提交历史),将信息存放…

classA cla= ...; if(cla == nullptr) 这种写法是否安全

在C中,classA cla …; 这行代码创建了一个名为 cla 的 classA 类型的对象(假设 classA 是一个已经定义好的类)。这个对象 cla 是在栈上分配的,而不是在堆上。因此,&cla(即 cla 的地址)永远…

Nginx负载均衡中的缓存过期配置:策略与实现

在Nginx负载均衡的高级应用中,合理配置缓存过期策略对于提升网站性能和保证内容的新鲜度至关重要。缓存过期意味着存储在代理缓存中的响应在一定时间后将被视为过时,并在下一次请求时从原始服务器重新获取。本文将详细介绍如何在Nginx中配置缓存过期&…

从PCB开始研究FPGA设计问题

从PCB开始研究FPGA设计问题 文章目录 从PCB开始研究FPGA设计问题前言一、高速电路板1.1 电源供电1.1.1 供电要求1.1.2 退耦 总结 前言 这里只针对FPGA告诉电路板设计问题进行讨论 一、高速电路板 一个成功的高速电路板,需要再复杂的板路中,应该避免与…

Nginx: 反向代理和动静分离概述

反向代理 反向代理服务器介于用户和真实服务器之间,提供请求和响应的中转服务对于用户而言,访问反向代理服务器就是访问真实服务器反向代理可以有效降低服务器的负载消耗,提升效率 1 )反向代理的模型 现在我们有一个用户和真实服…

Java笔试面试题AI答之集合(4)

文章目录 19. 简述Java集合框架机制与原理?1. 集合框架的组成2. 核心接口3. 集合框架的原理3.1 底层数据结构3.2 操作原理 4. 集合框架的优势 20. 简述集合框架中的泛型有什么作用和优点 ?作用优点 21. Java集合框架的基础接口有哪些?22. 解释…

群晖7.2.1 半洗白后安装AME

1. 群晖打开SSH 2. Xshell登录群晖 用管理员账户登录,然后使用sudo -i 获取root权限,sudo -i是要再次验证管理员密码 sudo -iSA6400还需要运行这个命令 /usr/syno/etc/rc.sysv/apparmor.sh stop #DSM7.2 AME版本3.1.0-3005强制解锁激活命令 curl -sk…

mysqlcheck

mysql bin中的其他工具包 对于mysql的其他工具, 有很多选项是公共的, 例如你在对数据库进行检查的时候, 需要指定host和user以及其password来连接上mysqlserver来进行相关操作, 这个时候其实用到的host等东西跟我们之前的mysql-client其实是类似的 也就是说他们是作为mysql众…

学习之SQL语言之DDL

查询 查询所有数据 SHOW DATABASES; 查询当前数据库 SELECT DATABASE(); 创建 CREATE DATABASE IF NOT EXISTS 数据库名; 删除 DROP DATABASE IF EXISTS 数据库名; 使用 USE 数据库名; 查询当前数据库所有表 SHOW TABLES; 查…