【机器学习算法】决策树-5 CART回归树法,M5回归树算法对CART算法改进了什么

news/2025/2/7 9:50:24/

目录

Cart字段回归树算法

CART回归树的字段选择方式:

小插曲:M5如何利用模型树来提升CART回归树的效能

继续CART字段选择方式


我的主页:晴天qt01的博客_CSDN博客-数据分析师领域博主

目前进度:第四部分【机器学习算法】

Cart字段回归树算法

CART回归树的字段选择方式、如何利用模型树来提升CART回归树的效能

CART回归树和分类数大体上是相同的。只有在叶结点的地方比较特别,分类树在叶结点是yes或者no,回归树就是一个值。

数值其实就是平均数,方差作为不纯度衡量的标准(衡量目前的分布,是不是有一致性的倾向,就和之前的entropy,gain ratio差不多)

之前发明ID3,C4.5,C5.0的人也搞了一个M5,其实就是CART的加强版预测的比较准。

我们先说明CART回归数的基本内容,再说明M5对它的改进

案例:

 

字段1代表的是地理位置,字段2代表的是房屋类型,是独立的还是连接的,字段3代表的是与学区房的距离,字段4代表的是房屋大小。字段5代表的房屋社区有多少户人家(一般户数越多,价格越低)。实际成交价格。

这里我们把房屋价格作为均值,来预测房屋价格可以吗,当然是可以的,价格的均值是173.5,如果我们用这个来预测,我们就会发现,预测结果误差比较大。均值代表我们的机械模型,我们的结果一定要比这个好。我们发现如果预测结果差,那么它的方差误差也会非常大

现在我们了解了,我们要用均值为预测结果,方差为预测依据。那我们就可以建立CART模型了。

 

我们发现市区的房子,大概比郊区的房子贵2.5倍。

我们这个时候用252K来预测Urban的房屋价格。105K来预测Rural房屋价格。肯定是要比178.5K来预测二者价格要准确许多。

然后我们在用房屋类型字段进行划分,我们发现,结果是300K和220K

右边Type效果,所以我们使用Miles进行分堆,就是用之前的二分法。进行分堆。

我们发现,其实它很像是吧数据根据字段进行一个聚类,然后预测。所以效果很好,就算到现在也非常好用。

CART回归树的字段选择方式:

之前我们叶节点用的都是平价值,那我们就想,能不能不用平均值来预测,而采用线性回归来预测呢?发现效果很好。

我们这里用的是简单线性回归,它不采用很多的字段,就采用一个字段,进行预测。

比如左下角的那个数据,我们原本使用的是300这个平均值作为预测结果。但是现在我们选用简单线性回归,我们那第一个字段来试一试,0.1*2200+90=310,发现结果和第一个字段是一致的,相对来说比较准确。

 

小插曲:M5如何利用模型树来提升CART回归树的效能

M5的改进就是在这一步,选择不使用一元的简单线性回归,而是采用多元的线性回归来改进叶节点的精确性。

 

他把这个命名为模型树,因为你会发现如果树不成长的话,最差也是一个多元线性回归的模型进行预测。如果树展开,有4个叶节点,那么就说明有4个多元线性回归预测模型。那肯定要比一个多元线性回归预测要准确。

为什么效果一定会好呢?

举个例子,如果现在出现了一个非线性的模型它是呈现抛物线的情况,那么只有一条多元线性回归线的话,点到线的距离,就是误差值。

 

但是如果我们做2条多元线性回归,左边用一条线性回归模型来预测,右边用另一台多元线性回归模型来预测,那么就可以用多条线性回归模型来预测非线性的问题了。

 

模型树可以做非线性的回归,所以它一定会比多元线性回归的效果好。最差就是退回多元回归线性模型。

继续CART字段选择方式

 

如果我们用178.5继续预测,我们说预测结果误差太大,那怎么表现这个误差大呢?我们就采用方差的形式来表现这个误差。于是我们和之前CART的分类树一样,我们一个一个试,找出字段中效果最好的二元分支。

我们发现用location把数值将分差降低到2408,原本是7810.25.

然后我们计算其他的字段

 

明显location效果主要些。

然后是连续型字段,mails

 

每个切点我们都试一试。方差最小的情况是以17为分割点3300。

然后我们选择最好的字段,也就是location。

M5改善的效果就是叶节点利用多元线性回归方程(模型树来预测模型。)来作为预测结果。


http://www.ppmy.cn/news/369239.html

相关文章

年度智能车型第二批公示!传祺GS8/问界M5/理想L9入围

随着今年1-9月中国市场乘用车新车交付数据的披露,2022年度高工智能汽车金球奖评选——年度智能化车型、品牌奖项入围名单也将开始陆续公示。2022年11月30-12月2日,我们将在高工智能汽车年会期间进行最终获奖名单的发布和颁奖。 定位于「以市场为指标」&…

M5(项目)-01-尚硅谷谷粒商城项目分布式基础篇开发文档

M5(项目)-01-尚硅谷谷粒商城项目分布式基础篇开发文档 分布式基础篇 一、环境搭建 各种开发软件的安装 虚拟机: docker,mysql,redis 主机: Maven, idea(后端),VsCode(前端),git,NodeJS 版本和安装过程略 快速搭建基本的前后端框架 ​ (1). 前端(vscode):下载并导入人人…

NAS文件管理拷贝速度很慢?大文件还是得用它!

有时候我们上传文件,个位数的传输速度实在让我们抓耳挠腮,不禁疑惑,有什么办法可以快速地传输文件呢? 就拿铁威马来说吧,铁威马的TOS 桌面上的 “文件管理” 是一款基于浏览器的网页版文件管理工具,该工具…

一、深度学习引言

文章目录 一、机器学习中的关键组件1. 数据2. 模型3. 目标函数4. 算法 二、各种机器学习问题1. 有监督学习1.1 回归1.2 分类1.3 标记问题1.4 搜索1.5 推荐系统1.6 序列学习 2. 无监督学习3. 与环境互动4. 强化学习 三、深度学习的发展 一、机器学习中的关键组件 1. 数据 数据…

刘强东成京东数科二股东;高通再诉苹果;金立否认裁定破产 | 极客头条

「CSDN 极客头条」,是从 CSDN 网站延伸至官方微信公众号的特别栏目,专注于一天业界事报道。风里雨里,我们将每天为朋友们,播报最新鲜有料的新闻资讯,让所有技术人,时刻紧跟业界潮流。 快讯速知 京东数字科技…

支付宝被罚18万元;金立副总裁回应60亿广告费;苹果再遭专利诉讼丨价值早报

第【915】期早报由【周一】赞助播出 01 今日头条 支付宝遭央行罚款18万元 因发生违规行为,央行杭州支行近期对支付宝做出行政处罚决定,并向其处以总额为18万元的罚款。 根据央行的公式,支付宝此次违规行为共涉及客户权益、产品宣传和个人信息…

金立集团董事长-刘立荣-注意细节

同为大学同窗,演绎绝然不同的命运故事。两个的人生之路,曾经多次相交,最终还是分离,性格决定命运。 刘立荣,湖南益阳人,金立通讯集团董事长兼总裁,身家15亿,手机月均销量45万部&…

Java集合框架:链表和LinkedList详解

目录 一、ArrayList的缺陷 二、链表(主要介绍不带头的非循环的 单链表 / 双链表) 注: 三、模拟链表的实现: MySingleList(单链表) MyLinkedList(双链表) 四、LinkedList的使用 …