果推断16--基于反事实因果推断的度小满额度模型学习笔记

news/2024/11/21 20:59:31/

目录

一、原文地址

二、一些问题

2.1如何从RCT随机样本过渡到观测样本因果建模?

2.2反事实学习的核心思想

2.3度小满的连续反事实额度模型 Mono-CFR

2.4Mono-CFR代码实现(待补充)

2.5CFR学习

2.5.1CFR

2.5.2DR-CFR

参考


一、原文地址

基于反事实因果推断的度小满额度模型

二、一些问题

2.1如何从RCT随机样本过渡到观测样本因果建模?

对于RCT样本的情况,如果希望评估ATE指标,可以通过分组相减或DID(difference in difference)。如果希望评估CATE指标,可以通过uplift 建模。常见的方法比如有meta-learner,double machine learning,causal forest等等。这里需要注意必要的三大假设:SUTVA,Unconfoundedness和Positivity。最核心的假设为:不存在未观测混淆因子。

对于仅有观测样本的情况,无法直接获取treatment->outcome的因果关系,我们需要借助必要的手段切断covariates到treatment的后门路径。常见方法是工具变量法和反事实表示学习。工具变量法需要对具体业务抽丝剥茧,绘制业务变量中因果图。反事实表示学习则依靠成熟的机器学习,匹配covariates相似的样本做因果评估。

X:特征

W:工具变量

D:干预

Y:gmv

首先通过X预测T,与真实的T作差,得到一个T的残差,然后通过X预测Y,与真实的Y作差,得到一个Y的残差,预测模型可以是任何ML模型,最后基于T的残差和Y的残差进行因果建模。

2.2反事实学习的核心思想

反事实学习的核心思想就是平衡不同treatment下的特征分布

核心问题有两个:

1. 如何调整训练样本的权重? 

2. 如何在表示空间中,使变换后的样本在实验组和对照组分布更加均衡?

本质思想是在变换映射后,为每个样本寻找它的反事实“双胞胎”。映射之后treatment组和control组X的分布比较相似。

2.3度小满的连续反事实额度模型 Mono-CFR

最后来介绍一下度小满的反事实额度模型,这里主要解决的是在观测数据上对连续型Treatment的反事实估计问题。

模型思想:给定期望额度μ(T|X),学习∆T与Y的单调性关系(Dose-Response Curve)。期望额度可以理解为模型学习到的连续性倾向额度,使得混淆变量C和额度T之间的关系能够断开,转换成∆T与Y的因果关系学习,从而对∆T下Y的分布进行较好的刻画。

2.4Mono-CFR代码实现(待补充)

2.5CFR学习

2.5.1CFR

Estimating individual treatment effect: generalization bounds and algorithms

GitHub - clinicalml/cfrnet: Counterfactual Regression

摘要:将机器学习应用于医疗保健、经济学和教育等领域因果推理问题引起了人们的极大兴趣。特别是,个人层面的因果推理具有重要的应用,例如精准医学。我们给出了一种新的理论分析和算法家族,用于从观测数据中预测个体治疗效果(ITE),假设被称为强可忽略性。该算法学习“平衡”表示,使诱导处理分布和控制分布看起来相似,我们给出了一个新的直观的泛化误差界,表明表示的预期ITE估计误差受该表示的标准泛化误差和表示引起的处理分布和控制分布之间的距离之和的限制。我们使用积分概率度量来测量分布之间的距离,推导出 Wasserstein 和最大平均差异 (MMD) 距离的显式边界。对真实数据和模拟数据的实验表明,新算法匹配或优于最先进的算法。

https://openreview.net/pdf?id=HkxBJT4YvB2.5.2DR-CFR

Learning Disentangled Representations for CounterFactual Regression

学习反事实回归的解纠缠表征
摘要:我们考虑从观察数据中估计治疗效果的挑战;指出,一般来说,只有一些基于观察到的协变量 X 的因素有助于选择治疗 T ,只有一些因素来确定结果 Y。我们通过考虑 {X, T, Y } 的三个潜在来源来模拟这一点,并表明显式建模这些来源为指导设计更好地处理观察数据集中的选择偏差的模型提供了很好的见解。本文试图概念化这一思路,并提供进一步探索它的路径。在这项工作中,我们提出了一种算法(1)从任何给定的观察数据集 D 和(2)中识别上述潜在因素的分离表示,并利用这些知识来减少选择偏差对从 D 估计治疗效果的负面影响。我们的实证结果表明,所提出的方法在基于个人和人口的评估措施中都实现了最先进的性能。

参考

基于反事实因果推断的度小满额度模型

因果推断5--DML(个人笔记)_dml因果_飞翔的七彩蜗牛的博客-CSDN博客

  1. 因果推断 之 DeR-CFR - 知乎
  2. DML-因果推断 - 知乎
  3. 因果推断5--DML(个人笔记)_dml因果_飞翔的七彩蜗牛的博客-CSDN博客
  4. 基于反事实因果推断的度小满额度模型
  5. 因果推断深度学习工具箱 - CounterFactual Regression with Importance Sampling Weights - 简书
  6. 因果推断综述及基础方法介绍(二)
  7. 因果推断|反事实推断|经典论文解读|SITE模型-基于表示学习 - 知乎
  8. 因果推断|反事实推断|经典论文解读|TargetNet&CFR模型-基于表示学习 - 知乎
  9. 因果推断 之 DeR-CFR - 知乎


http://www.ppmy.cn/news/209097.html

相关文章

如何从复盘中获得真正的收获?持续改进是关键!

复盘,本是围棋术语,每次博弈结束后,双方棋手把刚才的对局复演一遍,分析对局当中得失关键,提升自己棋力的好方法。复盘是对思维的训练。 通过复盘,当类似局面再次出现,你就能快速预测接下来的动态…

【Linux编译器gcc/g++】带你了解代码是如何变成可执行程序的!

Linux编辑器gcc/g的使用 背景知识gcc的使用预处理(进行宏替换)编译(生成汇编)汇编(生成及其可识别代码)链接(生成可执行文件或者库文件)库 动态库vs静态库 debug和release🍀小结🍀 🎉博客主页:小智_x0___0x…

2022年笔记本电脑行业市场分析

中国报告大厅网讯,目前市场笔记本电脑品牌同质化严重,随着人工智能和5G的到来也在影响着笔记本电脑市场的创新方向,个性化的需求逐渐增加未来市场或将往定制方向发展。以下是2022年笔记本电脑行业市场分析。 目前中国的笔记本电脑渗透率只有2…

笔记本电脑计算机恢复出厂设置密码,笔记本电脑怎么恢复出厂设置?

吴川 华南区技术负责人 概要 笔记本电脑用久了会出现卡顿现象,软件无法开启。那么有些用户会选择把笔记本电脑恢复出厂设置。那么笔记本电脑如何快速恢复出厂设置呢? 什么情况下笔记本要恢复出厂设置? 一般来说,当你的笔记本电脑运行速度非常缓慢,打开软件时出现卡顿现象,…

python3自然语言处理需要安装的库_这把神器,让你用 Python 一口气掌握 53 种自然语言处理...

原标题:这把神器,让你用 Python 一口气掌握 53 种自然语言处理 导读:前一段时间,斯坦福大学公开了它最新的自然语言处理代码库—— StanfordNLP。它不但包含了完整的语义分析工具链,还带有 73 个不同的高精度神经网络模…

thinkpad e470偶尔不识别外接显示器

1.重启电脑,按F1进入BIOS 2.找到exist saving changes,设置为yes 3.问题解决

谷歌浏览器不使用独立显卡

1.打开windows设置 2.搜索 图形设置 3.在设置要设置首选项的应用中选择桌面应用,并找到chrome安装目录下的exe文件 4.在chrome上点击选项进行设置,设置完成后重启浏览器即可。

轻薄本用服务器的性能,要轻薄也要持久 2017年三大商用本横评

一款卓越的商用电脑是所有用户的向往,但是轻薄如丝与续航如虎往往难以共存,性能卓越与物美价廉又看似天敌,那么在技术不断进步的当下,究竟哪款产品能够数得上真正为用户着想,性价比和颜值逆天的呢?中关村在…