DID, PSM 及 DID+PSM 有何差异?DID 要假定不可观测效应随时间变化趋势相同
关键词:didPSM模型
首先澄清一下题目中的术语:
- DID: difference in difference, 双重差分;
- PSM: propensity score matching, 倾向评分匹配;
- DID(PS)M: difference in difference (propensity score) matching, 双重差分(倾向评分)匹配
下面介绍一下匹配估计量。匹配主要分两种:截面数据匹配和双重差分匹配。截面数据匹配对于数据的要求比较简单,我们只需要项目介入后一个时间点的数据即可进行估计。双重差分匹配对于数据的要求更高,需要项目介入前后至少两个时间点的数据才能进行估计。匹配的核心思想是运用统计学技巧人为地构造出一个对照组,通过那些可观测特征(observable characteristics)试图为每个参与者(treated)“搭配”一个未参与者(untreated)。换句话说, 对于可观测的变量,通过匹配构造出的对照组(control group)与参与组(treatment group)拥有相同的随机分布。下面举两个例子说明一下匹配的过程:
例 1,精确匹配。考虑一个奖学金项目,我们想研究收到奖学金对大学生按时毕业的影响。奖学金的发放分为两步:
- 第一步:某个学生的绩点和家庭收入满足给定的标准(如绩点大于 3.2,家庭收入小于 30,000 元)时,他/她有资格参与该项目;
- 第二步:某个学生最终能否收到奖学金,不但取决于第一步中那些可观测特征(如性别、绩点、家庭收入),还取决于一些不可观测特征(如管理奖学金的人是谁)
下图展示了精确匹配的过程,左右两张表格分别列出了最终收到了奖学金和没有收到奖学金的情况,每一行表示一个学生。可以看到有三对学生被精确匹配,即他们两两之间的可观测特征是完全一致的。
例 2,倾向评分匹配。从上图中可以看到,当我们采用精确匹配时,有些学生无法找到与自己相配的对象。我们不难想象,当用来匹配的条件不断增加时,几乎不会有人能够找到合适的匹配对象,这就是所谓“维度的诅咒”。因此,我们需要一种工具来降维,而这种工具就是倾向评分:。其中,表示一系列可观测特征,表示最终是否收到了奖学金(收到为,未收到为)。需要注意的是,当我们引入倾向评分时,我们还需要额外引入一条假设,即学生是否收到奖学金只与那些可观测特征有关,而独立于他们潜在地收到(或没有收到)奖学金后的按时毕业情况。由于倾向评分是连续的,我们通常会以区间为基准进行匹配,如,见下图:
有两点值得注意。第一,相比精确匹配,当我们使用倾向评分后参与者找到与之相对应的未参与者的可能性提高了,但是仍有一些参与者无法找到合适的匹配对象(倾向评分过高)。事实上,只有倾向评分位于共同支撑(common support)的个体才能找到匹配,见下图。第二,对于某些参与者,我们有多个相配的倾向评分,此时可以选择倾向评分最接近的未参与者作为匹配对象。
在进行估计之前,我们先明确定义一下潜在结果:
- :如果一个学生没有收到奖学金,他/她的按时毕业情况;
- :如果一个学生收到了奖学金,他/她的按时毕业情况
注意,对于任何一个学生,不管最终有没有收到奖学金,他/她都有和。例如,对于某个奖学金获得者,我们最终观察到了他/她的;但是如果他/她没有收到奖学金,我们则会观察到(可以想象存在这样一个平行宇宙)。现在我们可以写出参与者的平均参与效应(average treatment effect on the treated, ATT):
其中第二个期望可以用匹配得到的对照组来估计。
2015.11.27 更新:接下来介绍一下双重差分。
例 3,截面估计量。考虑一个给农民发放贷款的项目,农民可以用得到的贷款来购买肥料从而增加他们种植的作物产量。假设我们只观察到了项目开始一年以后的数据:收到贷款的农民平均每公顷收获 1,100 公斤作物,没有收到贷款的农民平均每公顷收获 1,000 公斤作物。此时截面估计量为两者之差:公斤/公顷。
截面估计量假设了收到贷款的农民与没有收到贷款的农民拥有相同的生产率。但是如果(1)生产率更高的农民更容易获得贷款(他们的偿还能力更强);或(2)拥有更贫瘠土地的农民更有可能申请贷款(他们需要更多肥料来弥补土地的不足),那么这一假设就很容易被打破。
例 4,前-后估计量。考虑同样的项目,收到贷款的农民在项目开始前平均每公顷收获 1,000 公斤作物,项目开始后一年,每公顷平均收成增长到了 1,200 公斤。此时前-后估计量为两者之差:公斤/公顷。
(此回答尚未烂尾,待续…)
参考文献:
- Glewwe, Paul, and Petra Todd. Forthcoming. Impact Evaluation in Developing Countries: Theory, Methods and Practice. The World Bank.
作者:匿名用户
链接:https://www.zhihu.com/question/35528132/answer/63211692
来源:知乎
链接:https://www.zhihu.com/question/35528132/answer/101519808
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
借用SlowMover的定义:
DID: difference in difference, 双重差分;
PSM: propensity score matching, 倾向评分匹配;
DID(PS)M: difference in difference (propensity score) matching, 双重差分(倾向评分)匹配
这个问题要从处理效应(Treatment Effect)讲起,我们假设有某种处理把对象分为俩群,一群是参与处理的“实验组”或者“处理组”(treatment group);一群是未参与处理的“控制组”(control group)。考虑这种处理造成了什么效果。
让我来举个例子,比如说有一种就业培训项目,我们考察就业培训项目对未来收入的影响。
最最“直观”(tian zhen)的办法是,我们直接比较两个组(参与就业培训与否)之间的未来收入,并做差,用差值衡量。However,这个差值能够衡量就业培训的效果的前提为随机分组(其实事实上,分部独立这个条件一般都可以弱化到均值独立)。直观地举个例子判断,人们存在自我选择(self-selection),即很可能只有薪水低的(因而不满意的)人才会去参加就业培训,直接做差的结果,相当于用了一群培训后的原低薪水人群去减未培训的高薪水人群。说不定你能发现就业培训降低薪水的有趣结论哟:)
事实上我们对上面那个数字到底是正是负、是大是小完全不感兴趣,我们真正感兴趣的是:实验组参加培训后的收入会不会比(假想中)实验组未参加培训后的收入更高呢?高多少呢?
对这个数字的评估,才是我们的处理效应。从模型上考察。
Yit= α0 + α1*Dt + β0*I(t=1) + β1*Dt*I(t=2) + Uit
α0:基础收入
α1*Dt:组间差异,即两个组的工资之间是否本身就存在差异
β0*I(t=1) :时间差异,即描述了工资随时间的变化。I(`)是一个判断函数,条件成立取1,不成立取0。
β1*Dt*I(t=2) :处理效应,即被处理组第二期的工资是否发生了变化。
Uit:随机扰动项。
双重差分估计呢就是:
观察那张丑丑的图,从yt1-yt2’的实线就是我们假设的,如果没有处理,那么(假想中)实验组(未参加培训后)的收入。
那这条线是怎么来的呢?是我们把yc1-yc2这条实线往上平移得到的。
换言之,我们假设了yt2’-yt1 = yc2-yc1,这就是DID估计中要求的同趋势假设。换言之,即不可观测效应随时间变化趋势相同。However,这个假设相当的强,以至于经常不成立。
好,下面我们导出PSM和DID-PSM
上面我们说了,之所以直接估计两组之间的差异往往是失败的,是因为总体可能会选择是否参与处理而不是完全随机的。要把这种自我选择给消除掉。
人们对于这个问题,有两条思路,第一条是假设是否参与处理是只依据一些可测变量来进行的;第二条是基于此衍生的匹配估计量。
第一条是什么意思呢,就是如果是否参与是完全根据一些可测变量来决定的,那在控制了这些可测变量的基础上,是否参与就是一个完全随机(同样的,分布独立可以弱化为均值独立)的事件了。那很好,根据之前的想法,我们可以直接做差估计了。
那第二条匹配估计量说的是什么事儿呢,就说我假设,我能在两个组里,找到这个可测变量相同的人,比如说上述问题,如果人们完全根据身高决定参与与否的概率分布,那如果两个人身高一样高,那么显然的,他们是否参与就是个随机事件。我们把他们匹配,考察他们的处理效应的差距。所有的人都匹配好了之后,那么平均的处理效应差距就是我们想要考察的系数。
的图表就很好地说明了精确匹配是如何进行的。
但是如果同时依身高、体重、肺活量等等一堆因素(多个变量)决策呢,就会出现数据稀疏(维度的诅咒)的问题,要极大的样本量才能满足。什么意思呢,就是原来身高一样的人,几百个人里我可能还能够大部分匹配成功;现在要求身高一样、体重一样、肺活量一样,为了凑够过得去的几十个样本,我可能需要几百万原始样本才能满足,更不要说更多的变量了。我们很难找到与Xi(就是上面所说的这组变量)足够接近的Xj。
那么我们该怎么办呢,聪明的你一定想到了,嘿嘿多维变量没关系呀,我们找个多元函数F(Xi)把它投影到一维上不就万事大吉了。第一个想到的当然就是欧氏空间上的距离了,当然下一秒我们就反应过来了,这个距离和单位有很大的关系呀,不太好;那么就用马氏距离(我们可以理解为,马氏距离就是标准化了这个“单位差别”下的欧氏距离)。这就是马氏匹配。当然啦,马氏距离仍然不够科学,可能身高影响是决定性的,体重影响是很次要的,但是在距离里他们的影响被“均等化”了;可能一个人身高很高,体重很小、另一个人身高很小体重很大,但他们参与的概率分布是接近的,但是在“距离”这个概念下,他们很不匹配。
于是天空一声巨响,送来了PSM估计量,换句话说,就是使F(Xi)更加科学。什么意思呢,就是我不管你到底是身高、体重、肺活量分别啥样,反正只要最后你们的概率分布一样(二值选择的概率分布其实就是一个参数,P,所决定的),那你们就配对上啦。如果我们之前的是否参与处理是只依据一些可测变量来进行的(可忽略性假设),那么分数一样的人概率分布一样,分组是随机的,可以直接配对估计。估计方法、common support的概念见
的回答。这里不絮述了。
以上说的都是精确匹配,当然了,模糊匹配也是一样的道理,精确匹配要求相等,模糊匹配就只要求约等于(具体的模糊匹配方法比较多,这里也不絮述了),关于模糊匹配,由于其使用了“约等于”的量,肯定是有误差的,因此也衍生出了“偏差矫正的匹配估计量”。
小结一下,PSM存在以下问题:
1.要求较大的样本量
2.要求较大的common support
3.要求前假设成立,即是否参与处理是只依据一些可测变量来进行的,或者至少,不可测变量的影响是可以忽略的。
第3条假设很要命啊,很严格呀,如果有按照不可测变量来选择是否参与处理的怎么办?不要紧张,计量经济学家们提出了若干种方法:
(1)不可测变量能有影响,那一定是可测变量不够多。多就是正义,我们找上充分多的可测变量,然后说不定就可以满足可忽略性假定了呢。
当然了,对此我的评价是,呵呵:)
(2)如果产生影响的这个不可测变量是个不随时间变化的量,而且我们有一个面板数据,那么我们可以使用DID-PSM来解决呀
(3)使用断点回归方法来估计
(4)使用工具变量法来估计
第二条,就是题主所提到的DID-PSM。 Heckman et al(1997,1998)提出的。
多亦不敢乱置喙,这部分我也没太弄明白。但是思路大体是,虽然现在我的选择是同时依据了可测和不可测变量,但是由于不可测变量是非时变的,那我们减去处理发生前的情况,的方程中,不可测变量不就被消除了么?(可以想想面板估计中消除固定效应的做法,有些类似),然后就等价于一个依可测变量选择的PSM。
这个成立的条件和前DID有些类似,要求
(233333请忽略我的钥匙和鼠标垫)
相当于通过这种差分方法,控制了诸如样本不同区域(文化影响参与培训)、统计员统计水平(假定其水平稳定但失误率存在)等等影响。
搞清楚两种方法的假设到底是什么,也就搞清楚该怎么用了。
DID的第一个假设是linear additive,第二个假设是相同时间趋势(因此暗含了面板数据的结构)。如果不是随机试验,还要假设控制组和实验组的均质性类似于随机分组。
psm不要求linear additive,但是要求你知道propensity function 的function form和variables。
psm不要求相同时间趋势,但是要求如果有面板数据结构,需要在function form和variables上体现time trend或者其他时序结构。
psm不严格要求随机试验,但是要求你知道所有影响实验分组的variables,即没有unobservable selection。
这还没完,即使你的ps是对的,consistency要求任意两个比较的点的ps差距趋近于0,这时候呢variance太大。你要variance小呢,这玩意就又不consistent了。传统计量和机器学习的私生子就是这么不招人待见。
我见到的大部分psm,logit加个knn(我觉得得赖Abadie和Imbens的指导教程),是技术迷信下的懒人做法。除非你有很强的理由说明linear additive的假设特别不靠谱,或者你有很强的理由认为selection process可以被完全描述,psm是一条很危险的路。
还是那句话,技术的复杂不能弥补设计思考的贫乏
来个超简单的版本:
- DID是比较四个点,Treated before, treated after; control before, control after。
- Matching是比较两个点:Treated, control
- DID+Matching是用matching的方法来确定treated和control。