多分类logistic回归分析案例教程

embedded/2024/11/14 8:06:30/

因变量为无序多分类变量,比如研究成人早餐选择的相关因素,早餐种类包括谷物类、燕麦类、复合类,此时因变量有三种结局,而且三种早餐是平等的没有顺序或等级属性,此类回归问题,可以使用多分类Logistic回归进行分析。

1. 模型原理

分类Logistic有时也称为多元Logistic回归,从因变量的多个类别中选一个水平作为对照,拟合其他类别水平相较于该对照水平的Logistic回归模型,因此k个分类水平的因变量,最终得到k-1个Logistic回归模型。

2. 重要概念

有以下主要概念:

(1) 多分类Logistic回归模型的参数估计与二元Logistic类似,同样采用最大似然法。

(2) 在模型检验方面和二元Logistic回归模型有一些差别,常用的拟合优度检验为Pearson卡方检验和偏差似然比卡方检验。其他概念和二元Logistic回归基本类似。

3. 多分类Logistic实例分析

【例5-9】以1992年美国总统选举的部分数据为例,总统投票对象包括Bush、Perot、Clinton,数据中变量说明见表 5-27,试分析选民投票情况。案例数据来源于卢纹岱(2006),数据文档见“例5-9.xls”。

1) 基本条件判断

研究投票候选人的相关影响因素,投票对象变量为“pres”,有3个分类水平,为无序多分类变量,总投票数为1847,通过【通用方法】→【频数】可知,“pres”三个投票对象 Perot、Bush、Clinton依次获得278票、661票、908票,样本量能满足Logistic回归的经验要求,本例仅包括年龄、性别两个自变量,暂不考察多重共线性问题。

本例拟以Perot作为参照水平采用多分类Logistic回归进行分析。

2) 建立Logistic回归模型

数据读入平台后,仪表盘依次选择【进阶方法】→【多分类Logit】模块,将“pres”变量拖拽至【Y(定类)】,“age”和“sex”变量拖拽至【X(定量/定类)】。此处应注意,常见的参照水平主要包括第一个类别或最后一个类别,平台默认是以第一个数字编码或较小的数据作为参照组。

分类Logistic回归的自变量可以是定量数据,或者定类数据,如果是多分类定类数据可根据实际情况提前做哑变量处理,如果未做哑变量转换,移入【X(定量/定类)】后,平台将按定量数据进行回归分析。勾选【保存预测类别】,命令平台对案例数据进行类别预测,操作设定界面如图 5-27所示,最后单击【开始分析】。

分类Logistic回归输出包括基本汇总、模型似然比检验、回归分析结果汇总、预测准确率等结果。在结果解读和分析时,可参考二元logistic回归,先判断模型总体是否有效,评价模型拟合质量,最后检验各自变量因素的显著性及分析OR值结果。

3) Logistic回归模型的检验与评价

和二元Logistic回归一样,多分类Logistic回归模型总体检验仍然采用的是似然比卡方检验。

如上表5-28所示,经检验,卡方值=89.743,p﹤0.05,认为模型总体上有统计学意义,模型有效。表中的AIC、BIC,以及-2LL,和二元Logistic回归解读一致,均为取值越小越好,主要用于多个模型间的比较,此处可解释分析的意义不大。

也可以用预测准确率来评价模型的拟合优度,如上表5-29所示。本次拟合的多分类Logistic回归模型,对Perot、Bush的投票预测准确率都很低,对Clinton投票预测准确率可达到99.34%。

4) 回归系数与OR值解释与分析

k个分类水平的因变量进行多分类Logistic回归,将得到k-1个模型,每个模型独立计算各自变量对因变量的回归结果,因此在表5-30中,应注意该表格分为上下两部分,前4行为与Petor相比较,投票给Bush的影响因素分析;而后4行为与Petor相比较,投票给Clinton的影响因素分析。

(1) 与Petor相比较,投票给Bush的影响因素分析:

经Wald卡方检验,性别sex(卡方值=4.292,p﹤0.05)、年龄age(卡方值=38.921,p﹤0.01),认为性别和年龄对投选Bush的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Bush有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

以性别为例,OR=1.351,表示与给Petor投票相比较,女性投票给Bush的可能性是男性的1.351倍(默认是低编码水平为参照)。

(2) 与Petor相比较,投票给Clinton的影响因素分析:

经Wald卡方检验,性别sex(卡方值=27.191,p﹤0.01)、年龄age(卡方值=48.151,p﹤0.01),认为性别和年龄对投选Clinton的影响有统计学意义。这两个因素的偏回归系数均为正数,说明与投选Clinton有正相关关系。相对应的OR值均大于1,OR值95% CI不包括1,提示性别、年龄对投票结果有影响。

性别的OR=2.084,为促进因素,表示与Petor相比较,女性投票给Clinton的可能性是男性的2.084倍。年龄的OR=1.035, 同样也属于促进性因素,表示与Petor相比较,年龄越大的群体,他们会更加愿意投票给Clinton。

5) 结果报告

根据表中常数项和偏回归系数,可以写出两个模型的表达式为:

ln(Bush/Perot)=-0.992 + 0.301×sex + 0.031×age

ln(Clinton/Perot)=-1.486 + 0.734×sex + 0.034×age

性别、年龄对投票结果的影响均有统计学意义,是候选人选取成功的显著影响因素。


以上内容摘自SPSSAU科研数据分析方法与应用》第5章——相关影响关系研究,书中不仅涵盖了数据清理、统计分析和模型构建等内容,还提供了丰富的案例,以便于读者在实际研究中应用。


http://www.ppmy.cn/embedded/137447.html

相关文章

【VLANPWN】一款针对VLAN的安全研究和渗透测试工具

关于VLANPWN VLANPWN是一款针对VLAN的安全研究和渗透测试工具,该工具可以帮助广大研究人员通过对VLAN执行渗透测试,来研究和分析目标VLAN的安全状况。该工具专为红队研究人员和安全学习爱好者设计,旨在训练网络工程师提升网络的安全性能&…

CNN中每一层的权重是一样的么?

在卷积神经网络(CNN)中,每一层的权重并不是完全相同的,但在同一层内是共享的。具体来说,CNN的权重共享机制是指:在卷积层中,同一卷积核(filter)在输入图像的不同区域进行…

如何优化Kafka消费者的性能

要优化 Kafka 消费者性能,你可以考虑以下策略: 并行消费:通过增加消费者组中的消费者数量来并行处理更多的消息,从而提升消费速度。 批量消费:配置 fetch.min.bytes 和 fetch.max.wait.ms 参数来控制批量消费的大小和…

CKA认证 | Day2 K8s内部监控与日志

第三章 Kubernetes监控与日志 1、查看集群资源状态 在 Kubernetes 集群中,查看集群资源状态和组件状态是非常重要的操作。以下是一些常用的命令和解释,帮助你更好地管理和监控 Kubernetes 集群。 1.1 查看master组件状态 Kubernetes 的 Master 组件包…

vue配置动态代理

文章目录 vue.config.js添加配置 vue.config.js添加配置 module.exports {devServer: {host: 0.0.0.0,//默认启动端口port: 8080, //代理配置后端的地址proxy: {/rc: {target: http://127.0.0.1:10010, //后端api服务器地址changeOrigin: true, //是否跨域pathRewrite: {^/rc…

2024第四次随堂测验参考答案

从第四次开始答案会以c语言提供&#xff0c;自行了解&#xff0c;学习 6-1 报数 报数游戏是这样的&#xff1a;有n个人围成一圈&#xff0c;按顺序从1到n编好号。从第一个人开始报数&#xff0c;报到m&#xff08;<n&#xff09;的人退出圈子&#xff1b;下一个人从1开始报…

设计模式(四)装饰器模式

装饰器模式 1、意图 动态增加功能&#xff0c;相比于继承更加灵活 2、类图 Component(VisualComponent)&#xff1a;定义一个对象接口&#xff0c;可以给这些对象动态地添加职责。ConcreteComponent(TextView)&#xff1a;定义一个对象&#xff0c;可以给这个对象添加一些职…

C++20 概念与约束(3)—— 约束的进阶用法

《C20 概念与约束&#xff08;1&#xff09;—— SFINAE》 《C20 概念与约束&#xff08;2&#xff09;—— 初识概念与约束》 ●《C20 概念与约束&#xff08;3&#xff09;—— 约束的进阶用法》 1、再谈约束主句与从句 上一篇文章中提到过约束可以无限嵌套。末尾也提到不…