基尼系数(Gini Impurity)的理解和计算

news/2024/12/22 19:40:28/

一、基尼指数的概念

基尼指数(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。
注意:Gini指数越小表示集合中被选中的样本被参错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本为一个类时,基尼指数为0.

二、基尼系数的计算公式

基尼指数的计算公式为:
在这里插入图片描述

三、计算示例

我们分别来计算一下决策树中各个节点基尼系数:
在这里插入图片描述
以下excel表格记录了Gini系数的计算过程。
在这里插入图片描述
我们可以看到,GoodBloodCircle的基尼系数是最小的,也就是最不容易犯错误,因此我们应该把这个节点作为决策树的根节点。在机器学习中,CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,不纯度越低,特征越好。这和信息增益(比)相反。


http://www.ppmy.cn/news/772464.html

相关文章

GINI系数的计算

简便易用的公式:假定一定数量的人口按收入由低到高顺序排队,分为人数相等的n组,从第1组到第i组人口累计收入占全部人口总收入的比重为wi,则说明:该公式是利用定积分的定义将对洛伦茨曲线的积分(面积B)分成n个等高梯形的…

Gini指数的计算

Gini指数的计算 import torch import numpy as npdef gini_index_single(a,b):single_gini 1 - ((a/(ab))**2 (b/(ab))**2)return round(single_gini,2) ## 是来表示的是对应着他们所对应的纯度的。其中所对应的G ## Gini指数越小的话,所对应的纯度就是越高的pr…

机器学习笔记:特征处理——相关性分析GINI impurity

做相关性分析的方法有很多,这里分享几个相关性分析。 1、GINI系数 什么是基尼系数呢,其实就是P(Y|X)的一种变形,用人话就是说,利用多个标签,是否能区分模型,也就是相关度。 引入示例加深理解 X Y 有钱…

决策树3:基尼指数--Gini index(CART)

原理: 既能做分类,又能做回归。 分类:基尼值作为节点分类依据。 回归:最小方差作为节点的依据。 节点越不纯,基尼值越大,熵值越大 方差越小越好。 总体的基尼值:0.343 ## 代码实践 #整个c4.5…

Stata:各类集中度指数估算-广义基尼Gini系数

全文阅读:https://www.lianxh.cn/news/a6c027a470e91.html 作者: 杜孟凡 (湖南大学)邮箱: dumengfan0707163.com 目录 1. 背景介绍2. 集中度指数 2.1 理论部分2.2 推断与估计3. conindex 命令语法与实例 3.1 命令语法3.2 Stata 实例4. 结语5…

2023年计算机科学与信息技术国际会议(ECCSIT 2023) | Ei Scopus双检索

会议简介 Brief Introduction 2023年计算机科学与信息技术国际会议(ECCSIT 2023) 会议时间:2023年12月15日-17日 召开地点:中国北海 大会官网:www.eccsit.org 2023年计算机科学与信息技术国际会议(ECCSIT 2023)由西南交通大学、西南财经大学、…

import “github.com/gin-gonic/gin“ 爆红

4、代码 package main ​ import "github.com/gin-gonic/gin" ​ func main() {r : gin.Default()r.GET("/ping", func(c *gin.Context) {c.JSON(200, gin.H{"message": "pong",})})r.Run() // listen and serve on 0.0.0.0:8080 (fo…