Paper:可解释性之PDP来源之《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读

news/2024/11/25 21:19:52/

Paper:可解释性之PDP来源之《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读

目录

《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源

Abstract

8. Interpretation解释

8.1. Relative importance of input variables

8.2. Partial dependence plots


《Greedy Function Approximation: A Gradient Boosting Machine贪心函数逼近:梯度提升机器模型》翻译与解读—PDP来源

来源地址

https://projecteuclid.org/download/pdf_1/euclid.aos/1013203451

作者

Jerome H. Friedman,Stanford University

The Annals of Statistics

1999 REITZ LECTURE

发布日期

2001年第29卷第5期 1189–1232

Abstract

Function estimation/approximation is viewed from the perspective of numerical optimization in function space, rather than parameter space. A connection is made between stagewise additive expansions and steepest- descent minimization. A general gradient descent “boosting” paradigm is developed for additive expansions based on any fitting criterion. Specific algorithms are presented for least-squares, least absolute deviation, and Huber-M loss functions for regression, and multiclass logistic likelihood for classification. Special enhancements are derived for the particular case where the individual additive components are regression trees, and tools for interpreting such “TreeBoost” models are presented. Gradient boost- ing ofregression trees produces competitive, highly robust, interpretable procedures for both regression and classification, especially appropriate for mining less than clean data. Connections between this approach and the boosting methods ofFreund and Shapire and Friedman, Hastie and Tib- shirani are discussed.

函数估计/逼近是从函数空间而非参数空间的数值优化的角度来看的。在逐级加性扩展和最陡下降最小化之间建立了联系。基于任意拟合准则,提出了可加性展开式的一般梯度下降“助推”范式。给出了用于回归的最小二乘、最小绝对偏差和 Huber-M 损失函数以及用于分类的多类逻辑似然的特定算法。针对单个可加性组件是回归树的特定情况得出了特殊的增强功能,并提供了用于解释此类“TreeBoost”模型的工具。回归树的梯度提升为回归和分类产生了具有竞争力的、高度稳健的、可解释的过程,特别适用于挖掘不太干净的数据。讨论了这种方法与 Freund 和 Shapire 以及 Friedman、Hastie 和 Tibbhirani 的增强方法之间的联系。

8. Interpretation解释

 In many applications it is useful to be able to interpret the derived approximation F(x). This involves gaining an understanding of those particular input variables that are most influential in contributing to its variation, and the nature of the dependence of F(x) on those influential inputs. To the extent that F(x) at least qualitatively reflects the nature of the target function F∗(x) (1), such tools can provide information concerning the underlying relationship between the inputs x and the output variable y. In this section, several tools are presented for interpreting TreeBoost approximations. Although they can be used for interpreting single decision trees, they tend to be more effective in the context of boosting (especially small) trees. These interpretative tools are illustrated on real data examples in Section 9.

在许多应用中,能够解释导出的近似值 F(x) 是很有用的。 这涉及了解那些对其变化最有影响的特定输入变量,以及 F(x) 依赖于这些有影响的输入的性质。 如果F(x)至少定性地反映了目标函数F∗(x)(1),那么这些工具可以提供关于输入x和输出变量y之间潜在关系的信息。 在本节中,介绍了几种用于解释 TreeBoost 近似的工具。 尽管它们可用于解释单个决策树,但在增强(特别是小的)树的上下文中,它们往往更有效。 这些解释工具在第 9 节中的真实数据示例中进行了说明。

8.1. Relative importance of input variables

Relative importance of input variables. Among the most useful descriptions of an approximation F(x) are the relative influences Ij, of the individual inputs xj, on the variation of F(x) over the joint input variable distribution. One such measure is

输入变量的相对重要性。在对近似F(x)最有用的描述中,有单独输入xj对F(x)在联合输入变量分布上的变化的相对影响Ij。其中一个衡量标准是

8.2. Partial dependence plots

Partial dependence plots. Visualization is one ofthe most powerful interpretational tools. Graphical renderings ofthe value of F(x) as a function of its arguments provides a comprehensive summary ofits dependence on the joint values ofthe input variables. Unfortunately, such visualization is limited to low-dimensional arguments. Functions ofa single real-valued variable x, F(x) can be plotted as a graph ofthe values of F(x) against each corresponding value of x. Functions ofa single categorical variable can be represented by a bar plot, each bar representing one ofits values, and the bar height the value ofthe function. Functions oftwo real-valued variables can be pictured using contour or perspective mesh plots. Functions ofa categorical variable and another variable (real or categorical) are best summarized by a sequence of(“trellis”) plots, each one showing the dependence of F(x) on the second variable, conditioned on the respective values ofthe first variable [Becker and Cleveland (1996)].

Viewing functions of higher-dimensional arguments is more difficult. It is therefore useful to be able to view the partial dependence of the approximation F(x) on selected small subsets ofthe input variables. Although a collection of such plots can seldom provide a comprehensive depiction ofthe approximation, it can often produce helpful clues, especially when F(x) is dominated by loworder interactions (Section 7).

部分依赖图,可视化是最强大的解释工具之一。 F(x) 的值作为其参数的函数的图形渲染提供了它对输入变量联合值的依赖性的综合总结。不幸的是,这种可视化仅限于低维参数。单个实值变量 x,F(x) 的函数可以绘制为 F(x) 的值与 x 的每个对应值的关系图。单个分类变量的函数可以用条形图表示,每个条形代表它的一个值,条形高度代表函数的值。可以使用等高线或透视网格图来描绘两个实值变量的函数。一个分类变量和另一个变量(实数或分类)的函数最好用一系列(“格子”)图来概括,每个图都显示了 F(x) 对第二个变量的依赖性,条件是第一个变量的各自值 [Becker and Cleveland(1996)]。

观察高维参数的函数比较困难。因此,能够查看近似 F(x) 对输入变量的选定小子集的部分依赖性是很有用的。尽管此类图的集合很少能提供对近似值的全面描述,但它通常可以产生有用的线索,尤其是当 F(x) 由低阶交互作用支配时(第 7 节)。


http://www.ppmy.cn/news/814199.html

相关文章

GPRS 中的PDP上下文名词解释

所谓的PDP上下文,也即是移动场景,英文全称PDP Context,PDP是分组报文协议的简写,Context翻译成上下文。 每一个手机上网,都必须要先附着到SGSN上。当手机需要访问网络时,需要获取一个PDP地址,你…

模型解释性:PFI、PDP、ICE等包的用法

本篇主要介绍几种其他较常用的模型解释性方法。 1. Permutation Feature Importance(PFI) 1.1 算法原理 置换特征重要性(Permutation Feature Importance)的概念很简单,其衡量特征重要性的方法如下:计算特征改变后模型预测误差的增加。如果打乱该特征的…

ML之PDP:机器学习可解释性之部分依赖图(Partial Dependence Plots)之每个特征如何影响您的预测?

ML之PDP:机器学习可解释性之部分依赖图(Partial Dependence Plots)之每个特征如何影响您的预测? 目录 机器学习可解释性之部分依赖图之每个特征如何影响您的预测? Partial Dependence Plots How it Works Code Example 1D Partial Dependence Plots——单个特征PDP可视…

PPP和PDP激活区别

From: http://www.mscbsc.com/askpro/question.php?qid16261 ppp相当于链路层协议 socket套接字,对tcp/ip协议的封装、应用 gprs上网首先要设置pdp,接着建立ppp连接,ppp连接建立后,就可以进行tcp/ip传输了, 要进行tc…

物联网-GPRS简介和PDP激活

1. GPRS简介 GPRS(General Packet Radio Service)即通用分组无线服务,是移动电话用户可以使用的一种移动数据业务。 GPRS有别于旧的电路交换连接,在旧的电路交换连接系统中,一个数据连接要创建并保持一个电路连接&…

AT命令控制上网 PDP

AT命令控制上网 PDP 1. ATCGATT1 (Attach or detach from GPRS service, GPRS 附着状态) 说的简单点,这一步就是让SGSN (服务GPRS节点,你可以把它理解成与基站紧密相连的一台设备,他可能记录你的移动终端的位置&#…

ML之PDP:基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT决策树RF随机森林+PDP部分依赖图可视化实现模型可解释性之详细攻略

ML之PDP:基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT决策树&RF随机森林PDP部分依赖图可视化实现模型可解释性之详细攻略 目录 基于FIFA 2018 Statistics(2018年俄罗斯世界杯足球赛)球队比赛之星分类预测数据集利用DT…

Pdp11 simh 虚拟机 运行 unix V6

原文地址:https://github.com/ikarishinjieva/unixV6-code-analyze-chs/wiki/Pdp11%E8%99%9A%E6%8B%9F%E6%9C%BA Table of Contents 概述启动使用调试 调试常用命令 概述 由于源代码分析中,有一些分析基于调试环境,所以在此介绍一下所使用的…