面板数据如何做因子分析_分析因子分析_数据面板数据分析-数据分析

王培 ,王焱鑫 ,崔巍

(贵州大学理学院 ,贵州贵阳 550025)

摘要 :主要应用多元数理统计中的因子分析方法 ,对多指标面板数据进行了分析 ,并应用综合评分法对各地区的工业企业生产效率进行了分类。结果表明 ,应用因子分析的结果与现实基本相符。

中图分类号 : O212 文献标识码 : A

因子分析是主成分分析的推广和发展 ,也是多元统计分析中降维的一种方法。因子分析是研究相关阵或协方差阵的内部依赖关系 ,它将多个变量综合为少数几个因子 ,以再现原始变量与因子之间的相关关系 [ 1 ]。面板数据是同一截面单元数据集上对不同时间段上的重复观测值 ,是时间序列和截面数据的混合数据。面板数据的独特优点 ,使之在理论及应用领域都得到了长足的发展。然而 ,很少有学者考虑面板数据在多元统计中的分析。从 Bonze D. C和 Her2 mosilla A. Y开创性的将多元统计的方法引入到面板数据的分析中来 ,并用概率连接函数和遗传算法改进了聚类分析的算法 ,此后 ,国外对相关问题的研究一直停滞不前 ;国内学者朱建平、郑兵云分别对单指标面板数据及多指标面板数据的聚类分析进行了一定的研究 ,并做了实证分析。本文将因子分析与面板数据结合 ,利用实例解释面板数据的因子分析的结果。

1 因子分析的基本原理

1 正交因子模型设 X = (X1 , …, Xp ) ′是观测的随机向量 , E (X ) =μ, D (X ) = ∑,且设 F = ( F1 , …, Fm ) ′, (m < p) 是不可观测的随机向量 , E ( F) = 0, D ( F) = Im . 又设 ε = (ε1 , …,εp ) ′与 F互不相关 ,且 E (ε) = 0, D (ε) = d iag (σ2 1 , …,σ2 p ) ≡D

假定随机向量 X满足以下模型 :

X1 – μ = a11 F1 + a12 F2 + … + a1m Fm +ε1

X2 – μ = a21 F1 + a22 F2 + … + a2m Fm +ε2 … … … … … … …

Xp – μ = ap1 F1 + ap2 F2 + … + apm Fm +εp (1) 以上模型 (1)称为正交因子模型 ,用矩阵表示如下 X =μ +A F +ε (2) 其中 F1 , …, Fm 称为 X 的公共因子 ; ε1 , …,εp 称为 X的特殊因子。公共因子一般对 X 的每一个分量 Xi 都有作用 ,而 εi 只对 Xi 起作用。

2 模型的参数主成分估计方法

1)由样本数据阵 X 计算样本均值 X _ 、样本协差阵 S 、样本相关阵 R.

2)求相关阵 R 的特征值和标准化特征向量。记 λ1 ≥λ2 ≥ … ≥λp ≥ 0为 R的特征值 ,其相应的单位正交特征向量为 l1 , l2 , …lp .

3)求因子的载荷矩阵 A Ⅰ确定公因子的个数 m (如 m = 2 ). Ⅱ令 ai = λi li ( i = 1, 2, …m ) ,则 A = ( a1 , …, am ) 为因子的载荷矩阵。

4)估计特殊因子方差 σi ^ 和共同度 h 2 i ,其中 h 2 i = ∑ m j=1 a 2 ij ( i = 1, 2, …p).

5)对公共因子做解释。以上是因子分析的基本原理 ,关于因子分析的其他内容请参阅参考文献

. 2 面板数据的因子分析

1 面板数据的数据结构多指标面板数据的数据结构相对于单指标面板数据要复杂的多 ,不同于单指标面板数据的二维表格而言 ,多指标面板数据除了具有截面维度和时间维度外 ,还增加了指标维度 ,因此多指标面板数据实际上是一张三维表格。在平面上的表示如表 1 [ 3 ]。设总体由 N 个体组成 ,每个个体的特征含有 p项指标 ,时间长度为 T ,则 Xij ( t) , i = 1, 2, …n; j = 1, 2, …p; t = 1, 2, …T表示第 i个个体第 j个指标在时刻 t的数值。

。表 1 多指标面板数据的数据结构

面板数据的因子分析相对于多元统计中的总体及样本的因子分析要复杂很多 ,目前没有现成的软件可供使用 ,本文试图寻求一种途径将多指标面板数据的结构转换为现有软件能够处理的数据类型。这是一种“降维 ”的思想 ,即当我们多研究问题的要求不是非常严格时 ,我们可以通过取均值的方法将多指标面板数据的三维表格降为二维表格。具体的做法如下 ,对每一个指标在时间维度上取均值 ,抽象为某一个特定时刻的情形 ,从而消去时间维度的影响 ,退化成截面数据。显然地 ,这种“降维 ”的处理方法主要存在两个缺陷。第一 ,信息损失 ,均值只能描述平均动态 ,不能反映其他统计特征 ,如方差等 ;第二 ,这样的方法存在一种潜在的假设 ,即各个体在每一相同指标在时间维度上的变化方向相同 ,否则会出现错误 [ 3 ]。本文将利用 Eviews 软件对以上分析进行验证。

2 实例应用国有及规模以上的非国有企业在工业经济中占有绝对比重 ,国家每年都对这类企业进行详细的调查。本文仍将选取这类企业作为研究对象 ;选取全员劳动生产率、固定资本占有率、流动资本占有率三个指标考察国有及规模以上非国有企业的生产效率。本文使用的数据来自中国统计年鉴 (2001年 —2006年 )。

通过对 2000至 2005年 31个地区的三个指标的面板数据观测 ,能够看出这六年来工业全员劳动生产率不断提高 ,但固定资本及流动资本的占有率却呈降低趋势。文献 [ 3 ]用聚类分析的方法对各地区工业生产效率的层次及类型进行了粗略的判别。本文采用因子分析的方法给出各地区工业生产效率的综合得分 ,从而指出造成文献中分类结果的根本原因。 1) 应用 KMO和球形 Bartlett检验数据因子分析适应性。结果如表 2所示。由检验结果可以看出 ,应拒绝各变量独立的假设 ,因子分析的方法值得尝试。 2) 应用碎石图判断各因子的特征根大小及因子的重要程度。由图 1可以很明显的看出结果。表 2 KMO和球形 Bartlett检验结果。

3)计算因子载荷矩阵及因子空间载荷图 ,如表 3及图 2所示。

提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。a. 旋转在此次迭代后收敛。

提取方法:主成分分析法。旋转法:具有Kaiser标准化的正交旋转法。构成得分。

利用表4中的因子得分系数矩阵可以写出各公因子表达式如下 :

F1 = 0. 102×1 + 0. 536×2 + 0. 504×3

F2 = 1. 015×1 + 0. 044×2 + 0. 055×3

F3 = 0. 054×1 – 2. 302×2 + 2. 321×3

5) 结合表 3、4可以看出以上三个因子分别从不同方面反映了我国工业企业生产效率水平。单独使用某一个指标不能对工业企业的生产效率做出正确的评价 ,这里我们按各公因子的对应方差贡献率为权重计算综合评价统计量 :

从分类结果可以看出 ,首先 ,工业企业的生产效率具有较强的地区差异。经济较发达地区生产效率一般较高 ,这是因为经济发达地区一般拥有丰富及高水平的人力物力 ,在第一类中我们可以看出山东、江苏、、浙江在这方面的优势。其次经济开放程度对工业生产效率也有一定的正面影响 ,经济开放程度越高 ,特别是外资的流入 ,一定程度上提高了经济效益及生产效率。在分类中可以看出广东、上海、天津等地合理的利用开放带来的优势 ,提高了生产效率。最后 ,经济欠发达地区也有一些例外 ,如云南、新疆、贵州等地的工业企业生产效率表现优于山西、陕西 ,这是因为云南的烟草加工、新疆的食品加工、贵州的军工企业在我们选取的各指标上一直表现良好 ,并且在各地的整个企业中所占份额较大。

3 结论与展望从以上的分析我们看出 ,由于我们选取的三个指标 :全员劳动生产率、固定资本占有率及流动资本占有率在因子中的得分不同 ,为我们进行分类提供了依据。这也是文献 [ 3 ]中分类结果的主要原因。多指标面板数据的因子分析只是面板数据在多元统计分析中的一个方面 ,本文就平衡面板数据的因子分析做了一些基础性的工作 ,相关的内容还有很多 ,如非平衡面板数据 ,缺省面板数据等研究内容更加复杂 ,有待进一步的探讨 !

参考文献 : [ 1 ]高惠璇. 应用多元统计分析 [M ]. 北京 :北京大学出版社 , 2006: 291 – 307.

[ 2 ]朱建平 ,陈民肯. 面板数据的聚类分析及其应用 [ J ]. 统计研究 , 2007 (4) : 11 – 14.

[ 3 ]郑云兵. 多指标面板数据的聚类分析及其应用 [ J ]. 数理统计与管理 , 2008, 27 (2) : 265 – 270.

[ 4 ] Richard A Johnson, DeanW W ithem. App liedMultivariate Statisti2 cal Analysis[M ]. Beijing: China Statistics Press, 2000: 477-424

[ 7 ]刘大瑾 , 周海林 , 袁东锦. AXB + CXD = F的中心对称解及其最佳逼近的迭代算法 [J ]. 扬州大学学报 , 2008, 11 (3) : 9 – 13.

[ 8 ] A lvaro R De Pierro, Wei Mu – sheng. Some new p roperties of the eauality constrained and weighted least squares p roblem [J ]. Linear A lgebra and its app lications, 2000, 320 : 145 – 165.

[ 9 ] Yamada I. The hybrid steepest descent method for the variational inequality p roblem over the intersection of fixed point sets of nonex2 pansive mapp ings[ C ] / / Butnariu D, Censor Y, Reich S, eds. In2 herently ParallelA lgorithm for Feasibility and Op timization and Their App lications. London: Elsevier, 2001: 473 – 504.

[ 10 ] Sun He – ming, Hiroshi Hasegawa, Isao Yamada. A multidimen2 sional associative memory neural network to recall nearest pattern from Input[ C ] / / Nonlinear Signal and Image Processing, Sappo2 ro, Japan: Nonlinear Signal and Image Processing, 2005.

[ 11 ] Yamada I, Ogura N, Shirakawa, N. A numerically robust hybrid steepest descentmethod for the convexly constrained generalized in2 verse p roblems[ C ] / / Nashed Z, Scherzer O, eds. Inverse Prob2 lems, Image Analysis, andMedical Imaging. ContemporaryMathe2 matics , 2002, 313: 269 – 30.

Factor Analysis of Panel Data

WANG Pei,WANG Yan2xin, CU IW ei

(College of the Science, Guizhou University, Guiyang 550025, China )

Abstract: In this paper, the factor analysis of multivariate statistics was utilized to research on panel data. And the General Score method was used to classify enterp rises from different regions of China by p roductivity. The re2 sult shows that factor analysis can get a satisfying result in line with reality. Key words: panel data; factor analysis

Algor ithm for the Optimal Approximation

Solution of the Matr ix Equation

HU Shan2shan, SUN He2m ing, ZHONG Q ing

(College of Science, Hohai University, Nanjing 210098, China)

Abstract: This paper gives an iterative algorithm to obtain the symmetric op timal app roximation solution ofmatrix equation AXB +CYD = E with weighted Frobenius norm by app lying the hybrid steepest descent method . In the absence of round off errors, for any initial matrix X0、Y0, the op timal app roximation solution can be obtained within finite iteration step s. In this paper, the numerical examp le verifies the feasibility of the algorithm. Key words: hybrid steepest descentmethod; op timal app roximation; matrix equation; least2norm solution; sym2 metric solution

转载请注明：数据分析 » 面板数据如何做因子分析_分析因子分析_数据面板数据分析