《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析

ops/2024/11/13 10:32:56/

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


我们定义一颗树的复杂度 Ω Ω Ω,它由两部分组成:

  • 叶子结点的数量;
  • 叶子结点权重向量的 L 2 L2 L2范数;
    在这里插入图片描述

公式(12-14)是:

Ω ( f t ) = γ T + 1 2 λ ∑ j = 1 T w j 2 \Omega(f_t) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 Ω(ft)=γT+21λj=1Twj2

是在 XGBoost 中用于正则化的公式,它描述了第 t t t 轮生成的树 f t f_t ft 的复杂度惩罚项。XGBoost 的正则化项通过控制树的复杂度来防止过拟合,从而提高模型的泛化能力。

公式中的符号解释

  1. Ω ( f t ) \Omega(f_t) Ω(ft):表示第 t t t 轮生成的树 f t f_t ft 的正则化项,作为模型复杂度的惩罚。XGBoost 的目标函数包含损失项和正则化项,正则化项的目的是控制树的复杂度。

  2. T T T:树的叶子节点总数。树的复杂度通常与叶子节点数量直接相关,更多的叶子节点通常意味着更复杂的树结构。

  3. γ \gamma γ:控制叶子节点数的正则化参数。它决定了树的叶子节点数对模型复杂度的影响。较大的 γ \gamma γ 值会增加每增加一个叶子节点的成本,从而限制树的生长。

  4. w j w_j wj:第 j j j 个叶子节点的权重值。每个叶子节点都有一个预测值(权重),用于预测所有落入该节点的样本的值。

  5. λ \lambda λ:控制叶子节点权重大小的正则化参数。它用于限制叶子节点权重的大小,防止权重过大导致模型对训练数据的过拟合。

公式的分解与理解

公式可以分为两个部分:

第一部分:叶子节点数量惩罚项

γ T \gamma T γT

  • 这一部分表示树中叶子节点数量的惩罚, γ \gamma γ 是正则化参数,控制每增加一个叶子节点的复杂度成本。
  • 树的叶子节点越多,模型的表达能力越强,但也更容易出现过拟合。因此,通过增加叶子节点的成本,XGBoost 可以有效地限制树的复杂度。
  • 较大的 γ \gamma γ 值会让树的叶子节点数量减少,从而使模型更加简单,增强泛化能力。
第二部分:叶子节点权重惩罚项

1 2 λ ∑ j = 1 T w j 2 \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 21λj=1Twj2

  • 这一部分是对叶子节点权重的正则化,通过惩罚权重的平方和来限制权重的大小。
  • λ \lambda λ 是控制权重大小的正则化参数。较大的 λ \lambda λ 值会对权重 w j w_j wj 施加更大的惩罚,从而抑制每个叶子节点的输出值。
  • 权重 w j w_j wj 的平方和表示所有叶子节点的权重复杂度。通过限制权重的大小,XGBoost 可以防止某些叶子节点权重过大,以避免模型对训练样本的过拟合。

正则化项的作用

  1. 防止过拟合:正则化项通过限制叶子节点数量 T T T 和叶子节点权重 w j w_j wj 的大小,来控制树的复杂度,从而减少模型的过拟合风险。
  2. 增强泛化能力:通过控制模型的复杂度,XGBoost 可以更好地在新数据上表现。正则化项让模型不再过于依赖训练数据中的特定模式,而是更关注数据的整体结构。
  3. 控制模型复杂度 γ \gamma γ λ \lambda λ 参数为用户提供了控制模型复杂度的手段,用户可以通过调整这两个超参数,来选择合适的树结构和节点权重,找到泛化能力和训练精度之间的最佳平衡。

总结

公式(12-14)

Ω ( f t ) = γ T + 1 2 λ ∑ j = 1 T w j 2 \Omega(f_t) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 Ω(ft)=γT+21λj=1Twj2

XGBoost 的正则化项,用于控制树的复杂度。第一部分 γ T \gamma T γT 惩罚树的叶子节点数量,防止模型过于复杂;第二部分 1 2 λ ∑ j = 1 T w j 2 \frac{1}{2} \lambda \sum_{j=1}^{T} w_j^2 21λj=1Twj2 惩罚叶子节点权重的大小,防止某些节点权重过大而导致的过拟合。通过正则化项,XGBoost 可以有效地控制模型的复杂度,从而在训练精度和泛化能力之间取得平衡。


http://www.ppmy.cn/ops/133007.html

相关文章

AUTOSAR_EXP_ARAComAPI的7章笔记(2)

☞返回总目录 相关总结:服务发现实现策略总结 7.2 服务发现的实现策略 如前面章节所述,ara::com 期望产品供应商实现服务发现的功能。服务发现功能基本上是在 API 级别通过 FindService、OfferService 和 StopOfferService 方法定义的,协议…

基于ModelScope打造本地AI模型加速下载方案

背景介绍 在AI开发过程中,模型下载一直是一个让开发者头疼的问题。目前主流的模型下载渠道如下: Hugging Face (https://huggingface.co/) 最大的模型分享平台下载速度慢,经常需要科学上网模型版本更新及时 Hugging Face镜像 (https://hf-mirror.com/) 提供了一定的加速服务存…

【测试】【Debug】pytest运行后print没有输出

import pytest def test_good():for i in range(1000):print(i)def test_bad():print(this should fail!)assert False比如上述程序,运行之后只能看到输出了’this should fail!;但是debug版的测试运行后又能看到test_good函数中的输出。 这是为什么呢&a…

虚拟现实技术在旅游行业的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 虚拟现实技术在旅游行业的应用 虚拟现实技术在旅游行业的应用 虚拟现实技术在旅游行业的应用 引言 虚拟现实技术概述 定义与原理…

禅道与Jira与Ones对比:哪个更适合你的项目管理需求?

一、项目管理工具的重要性 在当今复杂的项目环境中,选择合适的项目管理工具对项目成功至关重要。随着项目规模的不断扩大、涉及领域的日益广泛以及团队成员的分散性,传统的项目管理方式已经难以满足需求。 项目管理工具可以帮助团队更好地规划和组织项…

Hive 查询(详细实操版)

语法结构 SELECT [ALL | DISTINCT] 字段名, 字段名, ... FROM 表名 [inner | left outer | right outer | full outer | left semi JOIN 表名 ON 关联条件 ] [WHERE 非聚合条件] [GROUP BY 分组字段名] [HAVING 聚合条件] [ORDER BY 排序字段名 asc | desc] [CLUSTER BY 字段…

【linux】CentOS 的软件源(Repository)学习

CentOS 7 的软件源(Repository)是用于分发和管理软件包的集中存储库。这些源包含了操作系统所需的各种软件包,包括系统工具、库、应用程序等。通过配置不同的软件源,用户可以选择从不同的服务器下载软件包,以提高下载速…

MySQL 表的操作

要在mysql中的数据库创建表,首先要进入进入某个数据库,我们可以使用如下命令 use 数据库名; 例如,进入test1数据库 创建表 create table table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate…