SPSS Modeler 自动分类器学习笔记

news/2024/11/28 19:31:12/

- 学习资料

IBM SPSS Modeler 18.0 Applications 第4章

- 应用场景

为每个客户提供合适的报价方案以实现更高收益

- 数据源描述

数据源名称pm_customer_train1.sav
在这里插入图片描述


- 应用模型

自动分类器

- 分析思路

通过“自动分类器”节点,为标志(例如某个指定客户是否可能拖欠贷款或者是否对特定的报价做出响应)或名义(集合)目标自动创建多个不同的模型并进行比较排序,选择最有效的模型,然后将它们合并为一个汇总(整体)模型。此方法将自动化操作的方便性与组合多个模型的优势融为一体,从而产生任何单一模型所不能带来的更为准确的预测。

- 设计步骤

1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels
在这里插入图片描述
2、添加类型节点
把response的Role设置为Target(输出/目标),Measurement(数据类型)设置为Flag(标志),
把campaign的Role设置为input(输入/预测变量),Measurement(数据类型)设置为Nominal(名义),
对于下列字段,将Role设置为无:CMSomer_id、response_date、purchase、purchase_date、product_id、Rowid 和 X_random(当构建模型时,将忽略这些字段),
其它字段保持不变,
接着点击Read Valuse读取值。
在这里插入图片描述
3、定义标签
在campaign字段的行上单机Values列的条目,在下拉列表中选择specify…(指定…),在弹出的指定窗口上,输入设置campaign字段4个值分别对应的标签,点击确定后,就可以通过点击显示字段和值标签工具栏按钮在输出窗口中显示标签
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4、为单项活动筛选记录
尽管数据包含有关四项不同活动的信息,但每一次的分析应侧重于其中一项活动。由于 Premium account活动(在数据中编码为 campaign=2)中的记录数最大,因此可以使用Select选择节点实现仅在流中包含这些记录。
在这里插入图片描述
5、
附加一个自动分类器节点,然后选择总体准确性作为对模型进行排序的度量,
将要使用的模型数设置为 3,这意味着在执行节点时将构建三个最佳模型,
在“专家”选项卡上,可从最多11种不同模型算法中进行选择,由于在“模型”选项卡上将要使用的模型数设置为 3, 因此节点将计算11个算法的准确性, 并构建包含三个最准确算法的单个模型块。
在这里插入图片描述
在“设置”选项卡上, 对于整体方法,选择置信度加权投票(还可以选择最初倾向加权投票/最高置信度当选/平均原始倾向)。此选项确定如何为每条记录生成一个汇总评分。

  • 置信度加权投票

置信度即可靠度,对结果有多少信心保证是正确的概率
使用简单投票方式时,若三个模型中有两个模型均预测“是”,则“是”将以 2 比 1 的投票结果取胜。在使用
置信度加权投票方式时,将基于各模型预测的置信度值进行加权投票。因此,如果一个预测“否”的模型的置信度比另外两个预测的模型“是”合在一起的置信度还高,则“否”取胜。

  • 最高置信度当选

使用最高置信度当选方式时,在各模型中,预测的置信度值最高的模型取胜。因此还是上面的例子,如果一个预测“否”的模型的置信度比另外两个预测的模型“是”的置信度都高,则“否”取胜。

  • 最初倾向加权投票

倾向评分指特定结果或响应的可能性,倾向评分仅适用于有标志目标的模型,并且指示为字段定义的值为真的可能性
计算原始倾向评分,然后基于各模型预测的倾向评分进行加权投票。因此还是上面的例子,如果三个模型预测“是”的倾向评分之和,大于预测“否”的倾向评分之和,则“是”取胜。

  • 平均原始倾向

计算原始倾向评分平均值。因此还是上面的例子,如果三个模型预测“是”的倾向评分的平均值,大于预测“否”的倾向评分的平均值,则“是”取胜。
在这里插入图片描述6、运行
在这里插入图片描述

- 结果分析与评估

默认情况下, “自动分类器”节点的“模型”选项卡中选择了总体准确性度量,因此模型将根据此度量进行排序。(还可以选择曲线下面积/利润/增益/字段数)根据这一度量,C51 模型的精确性最高,但 C&R 树和 CHAID 模型的精确性与之相差不大。基于这些结果,您可以决定使用所有这三个最准确的模型。通过结合多个模型的预测,可以避免单个模型的局限性,从而使总体准确性更高。

在模型块后面连接一个“分析”节点。右键单击分析节点,然后选择运行以运行流。由整体模型生成的汇总评分将显示在名为 SXF-response的字段中。根据训练数据进行度量时, 预测值与实际响应(如原始响应字段中的记录所示)相匹配的总体准确性为 92.82%。尽管该准确性低于此个案的三个模型中的最高准确性(C51 为 92.86%),但它们之间的差异非常小,可以忽略不计。一般来说, 在应用到除训练数据之外的数据集时, 整体模型通常更可能具有良好效果。基于总体准确性,“C51”、“C&R 树”和 CHAID 模型对于训练数据效果最佳。

在这里插入图片描述

- 补充

上面设计输入模型的记录都是campaign=2时的记录,当我们想把全部记录作为输入的时候,可以在上面的实验中把campaign的Measurement(数据类型)设置为拆分,那么自动分类器将为每个分割(campaign=1、campaign=2、campaign=3、campaign=4)构建模型
在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/455405.html

相关文章

SPSS非参数检验

系列文章目录 SPSS描述统计 SPSS均值检验 SPSS方差分析 文章目录 系列文章目录前言1 非参数检验提出的背景与特点1.1 背景1.2 特点 2 SPSS分析-非参数检验菜单中的相关功能2.1 卡方检验2.1.1 概述2.1.2 操作流程2.1.3 实例操作 2.2 二项分布检验2.2.1 概述2.2.2 操作流程2.2.3…

数学建模【SPSS 下载-安装、方差分析与回归分析的SPSS实现(软件概述、方差分析、回归分析)】

🚀【MOOC数学建模与实验---学习笔记---整理汇总表】🚀 🌈【学习网址:MOOC---郑州轻工业大学---数学建模与实验】🌈 【第1、2章】【概述、软件介绍】【第3章】【数据处理方法】【第4章】【规划模型】【第5章】【图与网络…

SPSS一元线性回归

线性回归分析基本内容 回归分析 是数据分析中最基础也是最重要的分析工具,绝大多数的数据分析问题,都可以使用回归的思想来解决。 回归分析的任务就是: 通过研究自变量X和因变量Y的相关关系,尝试去解释Y的形成机制,进…

便宜蜂销售额SPSS预测

背景介绍: 一家新零售连锁便利店“便宜蜂”,凭借其出色的选址分析和精准的算法推荐,通过数据高效驱动门店经营,已经成为近几年营业额增长最快的便利店。便宜蜂为了确定整个集团未来的额增长计划,需要建立一个数据平台…

用spss实现KNN(K近邻)算法

http://www.17bigdata.com/%E5%BA%94%E7%94%A8-ibm-spss-statistic-%E7%9A%84%E6%9C%80%E8%BF%91%E9%82%BB%E5%85%83%E7%B4%A0%E5%88%86%E6%9E%90%E6%A8%A1%E5%9E%8B%E5%AF%B9%E6%B1%BD%E8%BD%A6%E5%8E%82%E5%95%86%E9%A2%84%E7%A0%94%E8%BD%A6.html/ 比较完美的一篇文章 商业…

主成分分析与因子分析及SPSS实现

主成分分析与因子分析及SPSS实现 一、主成分分析 (1)问题提出 在问题研究中,为了不遗漏和准确起见,往往会面面俱到,取得大量的指标来进行分析。比如为了研究某种疾病的影响因素,我们可能会收集患者的人口学…

SPSS在咨询行业中的应用

3.1 研究背景及意义 居民消费水平是按国民收入或国内生产总值的使用总量中用于居民消费的总额除以年平均人口计算的,它反映一个国家或一个地区居民的一般消费水平。居民消费水平是GDP中一个重要组成部分,是拉动经济增长的三驾马车之一,一直…

数学建模-SPSS典型应用

01 Logistic 回归 定义:用于研究影响关系,即X对Y的影响情况。Y为定类数据,X可以是定量数据或者定类数据 如何X 是150 170 那是定量 如果X 是 矮 不矮就是定类 探究X(定量)与Y(定量)之间的影响时…