一、原文地址

基于反事实因果推断的度小满额度模型

二、一些问题

2.1如何从RCT随机样本过渡到观测样本因果建模？

对于RCT样本的情况，如果希望评估ATE指标，可以通过分组相减或DID(difference in difference)。如果希望评估CATE指标，可以通过uplift 建模。常见的方法比如有meta-learner，double machine learning，causal forest等等。这里需要注意必要的三大假设：SUTVA，Unconfoundedness和Positivity。最核心的假设为：不存在未观测混淆因子。

对于仅有观测样本的情况，无法直接获取treatment->outcome的因果关系，我们需要借助必要的手段切断covariates到treatment的后门路径。常见方法是工具变量法和反事实表示学习。工具变量法需要对具体业务抽丝剥茧，绘制业务变量中因果图。反事实表示学习则依靠成熟的机器学习，匹配covariates相似的样本做因果评估。

X：特征

W：工具变量

D：干预

Y：gmv

首先通过X预测T，与真实的T作差，得到一个T的残差，然后通过X预测Y，与真实的Y作差，得到一个Y的残差，预测模型可以是任何ML模型，最后基于T的残差和Y的残差进行因果建模。

2.2反事实学习的核心思想

反事实学习的核心思想就是平衡不同treatment下的特征分布。

核心问题有两个：

1. 如何调整训练样本的权重？

2. 如何在表示空间中，使变换后的样本在实验组和对照组分布更加均衡？

本质思想是在变换映射后，为每个样本寻找它的反事实“双胞胎”。映射之后treatment组和control组X的分布比较相似。

2.3度小满的连续反事实额度模型 Mono-CFR

最后来介绍一下度小满的反事实额度模型，这里主要解决的是在观测数据上对连续型Treatment的反事实估计问题。

模型思想：给定期望额度μ(T|X)，学习∆T与Y的单调性关系（Dose-Response Curve）。期望额度可以理解为模型学习到的连续性倾向额度，使得混淆变量C和额度T之间的关系能够断开，转换成∆T与Y的因果关系学习，从而对∆T下Y的分布进行较好的刻画。

2.4Mono-CFR代码实现（待补充）

2.5CFR学习

2.5.1CFR

Estimating individual treatment effect: generalization bounds and algorithms

GitHub - clinicalml/cfrnet: Counterfactual Regression

摘要：将机器学习应用于医疗保健、经济学和教育等领域因果推理问题引起了人们的极大兴趣。特别是，个人层面的因果推理具有重要的应用，例如精准医学。我们给出了一种新的理论分析和算法家族，用于从观测数据中预测个体治疗效果(ITE)，假设被称为强可忽略性。该算法学习“平衡”表示，使诱导处理分布和控制分布看起来相似，我们给出了一个新的直观的泛化误差界，表明表示的预期ITE估计误差受该表示的标准泛化误差和表示引起的处理分布和控制分布之间的距离之和的限制。我们使用积分概率度量来测量分布之间的距离，推导出 Wasserstein 和最大平均差异 (MMD) 距离的显式边界。对真实数据和模拟数据的实验表明，新算法匹配或优于最先进的算法。

https://openreview.net/pdf?id=HkxBJT4YvB2.5.2DR-CFR

Learning Disentangled Representations for CounterFactual Regression

学习反事实回归的解纠缠表征
摘要：我们考虑从观察数据中估计治疗效果的挑战；指出，一般来说，只有一些基于观察到的协变量 X 的因素有助于选择治疗 T ，只有一些因素来确定结果 Y。我们通过考虑 {X, T, Y } 的三个潜在来源来模拟这一点，并表明显式建模这些来源为指导设计更好地处理观察数据集中的选择偏差的模型提供了很好的见解。本文试图概念化这一思路，并提供进一步探索它的路径。在这项工作中，我们提出了一种算法（1）从任何给定的观察数据集 D 和（2）中识别上述潜在因素的分离表示，并利用这些知识来减少选择偏差对从 D 估计治疗效果的负面影响。我们的实证结果表明，所提出的方法在基于个人和人口的评估措施中都实现了最先进的性能。