因果推断:双重机器学习-ddml
实证研究往往会面临一个质疑:模型设定是正确的吗?例如,研究在班级中加入助教对教学质量的影响,常见的方法是构造回归方程。
温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。
阅读全文:因果推断:双重机器学习-ddml (lianxh.cn)
作者:李金桐 (中山大学)
邮箱:lijt65@mail2.sysu.edu.cn
1. 理论基础
1.1 为什么我们需要 DDML
实证研究往往会面临一个质疑:模型设定是正确的吗?例如,研究在班级中加入助教对教学质量的影响,常见的方法是构造回归方程:
Score=β0+β1Assistant+∑jβj×Control+εScore=β0+β1Assistant+j∑βj×Control+ε
其中,ScoreScore 代表成绩;AssistantAssistant 是标志是否加入助教的二元变量;ControlControl 为控制变量,可能包括:每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是线性的吗?显然不是。例如随着学习时间增加,成绩自然会提高,然而学习时间过长很可能导致疲惫、睡眠不足等,进而造成学习效率下降,反而使得成绩下降。
需要注意的是,我们实际上并不关心学习时间对成绩的影响,我们只希望研究 β1β1,我们只是需要处理控制变量对 β1β1 造成的影响。
接下来用更严谨的方法描述上述问题。考虑因果模型:
Y=Dθ0+g0(X)+U, E[U∣X,D]=0Y=Dθ0+g0(X)+U,E[U∣X,D]=0
D=m0(X)+V, E[V∣X]=0D=m0(X)+V,E[V∣X]=0
其中 YY 是模型的 Outcome,DD 是因果模型的 treatment。这里,我们关注 θ0θ0,即 treatment 的因果效应。一种常见的思路是,通过假设 (例如常见的线性假设),或者利用一定方法 (通常是机器学习) 估计,得到 g^0g^0,随后就可以利用线性回归得到 θ^0θ^0:
θ^0=cov(D,Y−g^0(X))var(D)=1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2(1)θ^0=var(D)cov(D,Y−g^0(X))=n1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))(1)
接下来,很自然的想要研究这个估计量是否无偏。遗憾的是 θ^0θ^0 往往是有偏的:
n(θ^0−θ0)=n1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2−(n1n∑i∈IDi(Yi−g0(Xi))1n∑i∈IDi2−n1n∑i∈IDiUi1n∑i∈IDi2)=(1n∑i∈IDi2)−11n∑i∈IDiUi⏟:=a+(1n∑i∈IDi2)−11n∑i∈IDi(g0(Xi)−g^0(Xi))⏟:=bn(θ^0−θ0)=nn1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))−(nn1∑i∈IDi2n1∑i∈IDi(Yi−g0(Xi))−nn1∑i∈IDi2n1∑i∈IDiUi)=:=a(n1i∈I∑Di2)−1n1i∈I∑DiUi+:=b(n1i∈I∑Di2)−1n1i∈I∑Di(g0(Xi)−g^0(Xi))
可以看出误差分为两项。aa 项来自于 UU 和 DD 的独立性,即 cov(D,U)var(D)var(D)cov(D,U),若二者不独立则会造成偏误。然而问题来源于 bb 项,我们将其展开为以下形式:
b=(E[Di2])−11n∑i∈Im0(Xi)(g0(Xi)−g^0(Xi))+oP(1)b=(E[Di2])−1n1i∈I∑m0(Xi)(g0(Xi)−g^0(Xi))+oP(1)
注意到 m0(Xi)(g0(Xi)−g^0(Xi))m0(Xi)(g0(Xi)−g^0(Xi)) 项。首先,g0g0 的估计往往存在误差,例如对于高维数据,往往会采用正则项处理,造成正则化误差,此时 bb 项发散。此外,m0(Xi)m0(Xi) 是数据本身的性质,因此数据会决定偏误的大小而无法改变,导致估计非常不稳健。
综合以上推论,可以说因果模型 treatment effect 的传统估计方法并不完美。因此,我们引入Double/Debiased Machine Learning (DDML) 的概念,为因果估计提供更为稳健的方法。
温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。
阅读全文:因果推断:双重机器学习-ddml (lianxh.cn)
更多推荐



所有评论(0)