温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

阅读全文:因果推断:双重机器学习-ddml (lianxh.cn)

作者:李金桐 (中山大学)
邮箱lijt65@mail2.sysu.edu.cn

1. 理论基础

1.1 为什么我们需要 DDML

实证研究往往会面临一个质疑:模型设定是正确的吗?例如,研究在班级中加入助教对教学质量的影响,常见的方法是构造回归方程:

Score=β0+β1Assistant+∑jβj×Control+εScore=β0​+β1​Assistant+j∑​βj​×Control+ε

其中,ScoreScore 代表成绩;AssistantAssistant 是标志是否加入助教的二元变量;ControlControl 为控制变量,可能包括:每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是线性的吗?显然不是。例如随着学习时间增加,成绩自然会提高,然而学习时间过长很可能导致疲惫、睡眠不足等,进而造成学习效率下降,反而使得成绩下降。

需要注意的是,我们实际上并不关心学习时间对成绩的影响,我们只希望研究 β1β1​,我们只是需要处理控制变量对 β1β1​ 造成的影响。

接下来用更严谨的方法描述上述问题。考虑因果模型:

Y=Dθ0+g0(X)+U,    E[U∣X,D]=0Y=Dθ0​+g0​(X)+U,E[U∣X,D]=0

D=m0(X)+V,    E[V∣X]=0D=m0​(X)+V,E[V∣X]=0

其中 YY 是模型的 Outcome,DD 是因果模型的 treatment。这里,我们关注 θ0θ0​,即 treatment 的因果效应。一种常见的思路是,通过假设 (例如常见的线性假设),或者利用一定方法 (通常是机器学习) 估计,得到 g^0g^​0​,随后就可以利用线性回归得到 θ^0θ^0​:

θ^0=cov⁡(D,Y−g^0(X))var⁡(D)=1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2(1)θ^0​=var(D)cov(D,Y−g^​0​(X))​=n1​∑i∈I​Di2​n1​∑i∈I​Di​(Yi​−g^​0​(Xi​))​(1)

接下来,很自然的想要研究这个估计量是否无偏。遗憾的是 θ^0θ^0​ 往往是有偏的:

n(θ^0−θ0)=n1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2−(n1n∑i∈IDi(Yi−g0(Xi))1n∑i∈IDi2−n1n∑i∈IDiUi1n∑i∈IDi2)=(1n∑i∈IDi2)−11n∑i∈IDiUi⏟:=a+(1n∑i∈IDi2)−11n∑i∈IDi(g0(Xi)−g^0(Xi))⏟:=bn​(θ^0​−θ0​)​=n​n1​∑i∈I​Di2​n1​∑i∈I​Di​(Yi​−g^​0​(Xi​))​−(n​n1​∑i∈I​Di2​n1​∑i∈I​Di​(Yi​−g0​(Xi​))​−n​n1​∑i∈I​Di2​n1​∑i∈I​Di​Ui​​)=:=a(n1​i∈I∑​Di2​)−1n​1​i∈I∑​Di​Ui​​​+:=b(n1​i∈I∑​Di2​)−1n​1​i∈I∑​Di​(g0​(Xi​)−g^​0​(Xi​))​​​

可以看出误差分为两项。aa 项来自于 UU 和 DD 的独立性,即 cov⁡(D,U)var⁡(D)var(D)cov(D,U)​,若二者不独立则会造成偏误。然而问题来源于 bb 项,我们将其展开为以下形式:

b=(E[Di2])−11n∑i∈Im0(Xi)(g0(Xi)−g^0(Xi))+oP(1)b=(E[Di2​])−1n​1​i∈I∑​m0​(Xi​)(g0​(Xi​)−g^​0​(Xi​))+oP​(1)

注意到 m0(Xi)(g0(Xi)−g^0(Xi))m0​(Xi​)(g0​(Xi​)−g^​0​(Xi​)) 项。首先,g0g0​ 的估计往往存在误差,例如对于高维数据,往往会采用正则项处理,造成正则化误差,此时 bb 项发散。此外,m0(Xi)m0​(Xi​) 是数据本身的性质,因此数据会决定偏误的大小而无法改变,导致估计非常不稳健。

综合以上推论,可以说因果模型 treatment effect 的传统估计方法并不完美。因此,我们引入Double/Debiased Machine Learning (DDML) 的概念,为因果估计提供更为稳健的方法。

 

 温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

阅读全文:因果推断:双重机器学习-ddml (lianxh.cn)

 

Logo

一站式 AI 云服务平台

更多推荐