第四章数据关联分析方法

第四章数据关联分析方法

news/2024/10/30 23:17:54/

基本概念和方法

关联规则和算法应用

基本概念和术语

关联规则算法应用：

一个关联规则分析的例子—————超市购物篮分析

不要看

后面数字看不懂

项集：是指项的集合。包含k个项的项集称为k-项集

支持度：若A是一个项集，则A的支持度表示在所有事务T中同时出现A项集的概率

置信度：A出现的次数除以A和B同时出现的次数。

频繁项集：支持度满足最小支持度阈值的项集称为频繁项集。通常k-项集如果满足最小支持度阈值，称为频繁集，记作Lk。

关联规则（Association Rule）:可以表示为一个蕴含式。

如：X=>Y,X和Y分别称为关联规则的前件和后件。

关联规则是否可用，需要考察他的支持度和置信度（可信度）两个指标。

可以通过以下实例来理解：

置信度等于两者出现的支持度和前者出现的支持度之比。

经典的Apriori关联规则算法

Apriori关联规则算法基本思想

Apriori的基本思想：频繁项集的任何非空子集也一定是频繁的。

核心思想：扫描数据获得所有的频繁1项集L1，利用L1查找频繁2项集，如此循环直到不再有新的频繁集被找到为止。而获取不同长度的频繁项集之前，都需要先查找到候选集（支持度满足最小支持度阈值的项集）。

如何生成候选集呢？

先自连接再进行修剪。

这个例子非常重要，比较容易理解。

支持度（sup）就是数出在数据集D中itemset出现的次数

{1,2,3}.{1,2,3,5},{1,3,5},{2,3,5}再进行修剪，他们的子集都必须在L2里面。

去除{1，2，3}，{1，2，3，5}，{1，3，5}

得到C3{2,3,5}

Apriori算法的缺点：

多次扫描数据库，产生巨大数量的候选集，繁琐的支持度计算。

下面我们来讲解FP-Growth算法

FP-Growth算法不产生候选项集，而是采用分而治之的策略。

（1）构建FP树：压缩数据库，并将频繁项放入频繁模式树（FP树），他仍然保留项集的关联信息。

（2）从FP树中挖掘频繁项集：
1.从FP中获得条件模式基

2.利用条件模式基，构建一个条件FP树

3.根据条件FP树，进行排列组合，挖掘出频繁项。

以下示例较为简单：重点理解

设定最小支持度为2，得到频繁集，并按照大小重新排列。

第二次扫描排序后的数据库。并且构建FP树。

开始从FP树中进行挖掘——频繁项集

那什么是条件模式基呢？

为什么每个条件模式基的计数为1呢？
由于i5的计数为1，最终到达i5的重复次数也只能为1，所以条件模式基的计数是根据路径中的结点的最小计数来决定的。

http://www.ppmy.cn/news/60357.html

相关文章

Golang中接口类型详解与最佳实践（二）

Golang中接口类型详解与最佳实践（二）

之前的文章《Golang中的interface(接口)详解与最佳实践》详细介绍了接口类型的定义、使用方法和最佳实践。接口类型使得编写可扩展、可维护和可复用的高质量代码变得更加容易。如何判断是否实现了某个接口？ 还是使用之前文章的例子，例如声明了如下一个…

阅读更多...

JS基础知识

JS基础知识

1.延迟加载JS 在script标签上添加async或者defer <script defer type"text/javascript" src"script.js"></script> defer:等html全都解析完成，顺次执行js脚本 async:js谁先加载完谁先运行 2.JS数据类型有哪些？ 基本数…

阅读更多...

建筑专业可以转行学云计算吗？

建筑专业可以转行学云计算吗？

当然可行。在过去的几年中，我们已经帮助很多建筑土木工程专业的同学转行学习云计算技术，尤其是在建筑信息化编程方向。近年来，云计算行业持续发展，涉及到众多领域，如云数据中心、云安全、云存储、云计算机服务等。云…

阅读更多...

HID Relay, 有线键盘转蓝牙项目学习：记一次失败的尝试

HID Relay, 有线键盘转蓝牙项目学习：记一次失败的尝试

HID Relay, 有线键盘转蓝牙项目学习：记一次失败的尝试开始学习嵌入式后，最难受的一个点在于电脑端口不够。我的电脑有两个USB口一个TypeC口，鼠标和键盘都要插USB口，stm32和51也都要插USB口。那么烧录的时候，要么就…

阅读更多...

华为OD机试 - 匿名信（Python）

华为OD机试 - 匿名信（Python）

题目描述电视剧《分界线》里面有一个片段，男主为了向警察透露案件细节，且不暴露自己，于是将报刊上的字减下来，剪拼成匿名信。现在又一名举报人，希望借鉴这种手段，使用英文报刊完成举报操作。但为了增加文章的混淆度，只需满足每个单词中字母数量一致即可，不关注每个…

阅读更多...

vue生命周期代码示范--Vue基本介绍--MVVM-示意图--数据渲染--事件绑定--修饰符--组件化--和全部代码示范

vue生命周期代码示范--Vue基本介绍--MVVM-示意图--数据渲染--事件绑定--修饰符--组件化--和全部代码示范

目录 Vue 基本介绍官网 git 地址: MVVM-示意图解读 MVVM 思想(上图) 下载官网简单的代码示例方便理解 Vue 数据绑定机制分析! 注意事项和使用细节数据单向渲染基本说明应用实例注意事项和使用细节数据双向绑定应用实例编辑代码实现代码综合-单…

阅读更多...

辨析关键路径、关键链、缩短工期方法

辨析关键路径、关键链、缩短工期方法

关键路径、关键链辨析、缩短工期方法关键路径法关键路径是从起点到终点的最长路径关键路径上活动的总浮动时间和自由浮动时间为0 关键链法根据有限的资源对项目进度进行调整，结合了确定性和随机性办法添加了持续时间缓冲（非计划工作活动&#xff0…

阅读更多...

Spark学习笔记【shuffle】

Spark学习笔记【shuffle】

本文基本上是大数据处理框架Apache Spark设计与实现的Shuffle部分的学习。以及Spark基础知识Bambrow Shuffle解决啥问题上游和下游，不同stage，不同的task之间是如何传递数据的。ShuffleManager管理ShuffleWrite和ShuffleRead 分为两个阶段&#xff1…

阅读更多...

最新文章