因果推断：双重机器学习-ddml

实证研究往往会面临一个质疑：模型设定是正确的吗？例如，研究在班级中加入助教对教学质量的影响，常见的方法是构造回归方程。

arlionn

1116人浏览 · 2024-10-04 08:00:00

arlionn · 2024-10-04 08:00:00 发布

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

阅读全文：因果推断：双重机器学习-ddml (lianxh.cn)

作者：李金桐 (中山大学)
邮箱：lijt65@mail2.sysu.edu.cn

1. 理论基础

1.1 为什么我们需要 DDML

实证研究往往会面临一个质疑：模型设定是正确的吗？例如，研究在班级中加入助教对教学质量的影响，常见的方法是构造回归方程：

Score=β0+β1Assistant+∑jβj×Control+εScore=β0+β1Assistant+j∑βj×Control+ε

其中，ScoreScore 代表成绩；AssistantAssistant 是标志是否加入助教的二元变量；ControlControl 为控制变量，可能包括：每天学习时间、作业完成率、出勤率等。那么这些特征的关系真的是线性的吗？显然不是。例如随着学习时间增加，成绩自然会提高，然而学习时间过长很可能导致疲惫、睡眠不足等，进而造成学习效率下降，反而使得成绩下降。

需要注意的是，我们实际上并不关心学习时间对成绩的影响，我们只希望研究 β1β1，我们只是需要处理控制变量对 β1β1 造成的影响。

接下来用更严谨的方法描述上述问题。考虑因果模型：

Y=Dθ0+g0(X)+U, E[U∣X,D]=0Y=Dθ0+g0(X)+U,E[U∣X,D]=0

D=m0(X)+V, E[V∣X]=0D=m0(X)+V,E[V∣X]=0

其中 YY 是模型的 Outcome，DD 是因果模型的 treatment。这里，我们关注 θ0θ0，即 treatment 的因果效应。一种常见的思路是，通过假设 (例如常见的线性假设)，或者利用一定方法 (通常是机器学习) 估计，得到 g^0g^0，随后就可以利用线性回归得到 θ^0θ^0：

θ^0=cov⁡(D,Y−g^0(X))var⁡(D)=1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2(1)θ^0=var(D)cov(D,Y−g^0(X))=n1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))(1)

接下来，很自然的想要研究这个估计量是否无偏。遗憾的是 θ^0θ^0 往往是有偏的：

n(θ^0−θ0)=n1n∑i∈IDi(Yi−g^0(Xi))1n∑i∈IDi2−(n1n∑i∈IDi(Yi−g0(Xi))1n∑i∈IDi2−n1n∑i∈IDiUi1n∑i∈IDi2)=(1n∑i∈IDi2)−11n∑i∈IDiUi⏟:=a+(1n∑i∈IDi2)−11n∑i∈IDi(g0(Xi)−g^0(Xi))⏟:=bn(θ^0−θ0)=nn1∑i∈IDi2n1∑i∈IDi(Yi−g^0(Xi))−(nn1∑i∈IDi2n1∑i∈IDi(Yi−g0(Xi))−nn1∑i∈IDi2n1∑i∈IDiUi)=:=a(n1i∈I∑Di2)−1n1i∈I∑DiUi+:=b(n1i∈I∑Di2)−1n1i∈I∑Di(g0(Xi)−g^0(Xi))

可以看出误差分为两项。aa 项来自于 UU 和 DD 的独立性，即 cov⁡(D,U)var⁡(D)var(D)cov(D,U)，若二者不独立则会造成偏误。然而问题来源于 bb 项，我们将其展开为以下形式：

b=(E[Di2])−11n∑i∈Im0(Xi)(g0(Xi)−g^0(Xi))+oP(1)b=(E[Di2])−1n1i∈I∑m0(Xi)(g0(Xi)−g^0(Xi))+oP(1)

注意到 m0(Xi)(g0(Xi)−g^0(Xi))m0(Xi)(g0(Xi)−g^0(Xi)) 项。首先，g0g0 的估计往往存在误差，例如对于高维数据，往往会采用正则项处理，造成正则化误差，此时 bb 项发散。此外，m0(Xi)m0(Xi) 是数据本身的性质，因此数据会决定偏误的大小而无法改变，导致估计非常不稳健。

综合以上推论，可以说因果模型 treatment effect 的传统估计方法并不完美。因此，我们引入Double/Debiased Machine Learning (DDML) 的概念，为因果估计提供更为稳健的方法。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

阅读全文：因果推断：双重机器学习-ddml (lianxh.cn)

EazyDevelop社区

一站式 AI 云服务平台

更多推荐

探秘深海：一款强大的深度学习框架——DeepSea

在人工智能领域中，深度学习是推动科技进步的一股强大动力。今天，我们要向大家推荐的是一个专为深度学习爱好者和开发者打造的强大框架——DeepSea。该项目由Team-Neptune团队开发，并托管在Gitcode平台上，旨在简化和加速深度学习模型的研发过程。## 技术分析### 灵活的架构设计DeepSea采用模块化的设计，允许用户根据需求选择不同的组件，如优化器、损失函数等，以构建定制