Stata面板数据处理

关键词：stata怎么处理面板数据、stata导入面板数据、面板数据处理的步骤、数据分析

经过一年的学习对Stata面板数据处理有了一定了解。在这里将学习经验分享给大家。

方法/步骤

短面板处理

面板数据是指既有截面数据又有时间序列的数据，因此其存在截面数据没有的优势，在用stata进行面板数据的估计时，一般选择xtreg命令进行拟合。本节主要论述短面板的stata实现，即时间维度T相对于截面数n较小的数据。在那种情况下，由于T较小，每个个体的信息较少，故无从讨论扰动项是否存在自相关，我们一般假设其**同分布。

面板数据维度的确定

在面板数据进行模型估计前，要进行面板数据的维度确定。由于面板数据既有截面数据又有时间序列，而stata不能自动识别，因此，必须使得stata得知哪一部分是截面数据，而哪一部分是时间序列。

设置面板数据维度的基本命令为：

xtset panelvar timvar [, tsoptions]

其中panelvar代表截面数据变量，timvar代表时间序列变量。

选取某一面板数据进行维度设定（该数据研究职业培训津贴对厂商废弃率的影响）：

xtset fcode year

固定效应估计

xtreg可以估计固定效应与随机效应，两者的差异在于选项的不同。

xtreg用来做固定效应的语法是：

xtreg depvar [indepvars] [if] [in] [weight] , fe [FE_options]

其语法可以help xtreg获得。（说明，其中xt表示面板数据的命令，因此，在stata中输入help xt可以学习面板数据描述、估计等命令。）

选取某一数据进行拟合：

xtreg lscrap d88 d89 grant grant_1,fe

结果显示如下：

其中，(1)表示组内、组间、总体的R方，其中固定效应看组内R-sq，随机效应看总体R-sq。

(2)表示个体效应与解释变量的相关系数。

(3)F检验表示模型整体显著性。

(4)U表示个体观测效应，sigma_u为个体效应的标准差

E表示随机干扰项，u+e为所谓的混合误差，rho是指个体效应的方差占混合误差方差的比重。

备注：（1）（2）（3）（4）分别对应一下的四张照片

随机效应估计

xtreg用来做随机效应的语法是：

xtreg depvar [indepvars] [if][in] [weight] , re [RE_options]

与上一部分类似的估计

xtreg lscrap d88 d89 grantgrant_1,re

（1）

与固定效应不同的是，固定效应F检验处，此处为瓦尔德卡方检验，同样表示模型整体显著性。

固定效应与随机效应的选择：豪斯曼检验

首先，看两个效应的区别

固定效应与随机效应的区别

区别一：

FE / RE 模型可统一表述为： y_it = u_i + x_it*b + e_it

对于FE，个体效应 u_i 被视为一组解释变量，为非随机变量，即 N-1 个虚拟变量；对于RE，个体效应 u_i被视为干扰项的一部分，因此是随机变量，假设其服从正态分布，即 u_i~N(0, sigma_u^2)；在上述两个模型的设定中，e_it都被视为“干干净净的”干扰项，也就是OLS时那个背负着众多假设条件，但长相极为俊俏的干扰项，e_it~N(0,sigma_e^2)。需要注意的是，在 FE 模型中，只有一个干扰项 e_it，它可以随公司和时间而改变，所有个体差异都采用 u_i 来捕捉。而在 RE 模型中，其实有两个干扰项：u_i 和 e_it，差别在于，第一种干扰项不随时间改变（这也是所谓的“个体效应”的含义），而第二类干扰项可以随时间改变。因为上述对 FE 和 RE 中个体效应 u_i 的假设之差异，二者的估计方法亦有差异。FE可直接采用OLS估计，而RE则必须使用GLS才能获得更为有效的估计量。

固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上；随机效应模型则假设所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上。

区别二：

固定效应更适合研究样本之间的区别，而随机效应适合由样本来推断总体特征。

其次，Hausman检验确定模型形式的选择。

以上面的面板数据为例

xtreg lscrap d88 d89 grant grant_1,fe

est store fe

xtreg lscrap d88 d89 grant grant_1,re

est store re

hausman fe

结果显示：

(1)