本站分享:AI、大数据、数据分析师培训认证考试,包括:Python培训Excel培训Matlab培训SPSS培训SAS培训R语言培训Hadoop培训Amos培训Stata培训Eviews培训

非正态数据处理_数据正态化处理

数据分析 cdadata 7056℃

非正态数据处理

关键词 :数据正态化处理,将数据处理成正态分布,正态化处理,非正态分布数据转换,非正态分布数据分析

非正态数据是研究中最常见的情况之一,国内相关研究很少有报告数据分布形态信息的。如果投国外期刊,正态性的统计参数需要说明,否则reviewer将会提出质疑和要求修改,甚至重新分析数据

目前处理非正态的方法有多种,现总结如下: 

(1)数据转换。可以先将非正态分布数据进行正态化转换再进行估计,但有些估计方法,如非加权最小二乘法(Unweighted least squares ULS)对转换数据比较敏感,有时甚至无效(Kline, 2010)。通过转换数据计算的参数还需要转换成之前的单位,否则结果无法解释。通过数据转换也可能犯错误,如果数据本身就不是正态分布,通过正态化转换只能产生新的错误。

(2)稳健估计法。有些参数估计方法对数据的分布形态不做要求,如渐进自由分布(Asymptotic Distribution Free, ADF)也称作加权最小二乘法(weighted least squares, WLS)。但研究者指出,只有当ADF在大样本中才能得到比较精确的估计结果(e.g., Yuan & Bentler, 1998)。West等(1995)建议的样本量为1000至5000,而在多数实际研究中很难达到如此规模的样本量。另外,ADF在实际应用中常高估卡方统计量 (e.g., Chou & Bentler, 1995; Curran, West, & Finch, 1996; Hu, Bentler, & Kano, 1992),而低估标准误(DiStefano, 2002)。除此之外还有多种稳健加权最小二乘法(Robust Eeighted Least Squares),如 Mplus提供的WLSMV和WLSM。
WLSMV估计是专门为了处理类别变量设计的(Muthén, 1993),所以在处理类别数据时表现优于其他估计方法(Beauducel & Herzberg, 2006; Flora & Patrick, 2004; Finney & DiStefano, 2006)。Flora和Patrick(2004)的模拟研究比较了WLSMV和WLS处理非正态类别数据时的表现,结果发现WLS仅在简单模型、大样本时(n > 1000)表现尚可,在其他条件下表现均不理想(不精确的参数估计、检验统计量和标准误),而WLSMV在所有条件下(偏态和小样本n=100)均能获得不错的参数估计结果。Beauducel和Herzberg(2006)比较了WLSMV和ML在处理2-6个类别及4个样本量(250, 500, 750, 1000)情况下的表现,结果发现在2和3个类别时ML会低估因子负荷,特别是样本量较小时,而在所有条件下WLSMV均表现优良。因此在处理类别数据时不管数据分布形态如何选择WLSMV是相对稳妥的做法。

(3)校正统计量 。当处理非正态分布或/和类别数据时,ML所估计的卡方和标准误都不够精确,有学者提出了校正卡方和标准误的方法。其中最常用的是由Satorra和Bentler(1994)提出的校正法,所得卡方称为S-Bχ2。在Mplus中通过选用MLM估计法得到此统计量(嵌套模型的比较不能直接使用似然比检验 ,具体计算见http://www.statmodel.com/chidiff.shtml)。DiStefano(2002)在模拟研究中发现,当处理非正态类别数据时S-B 校正程序是有效的。他在结合先前的相关研究后进一步指出S-B 校正程序可作为处理非正态类别数据的替代方法。然而当样本量小于400时(Boomsma & Hoogland, 2001),SBχ2检验表现较差,此时可以使用基于残差的Yuan-Bentler检验(Bentler & Yuan, 1999; Yuan & Bentler, 1998b),在Mplus中通过MLR估计法得到此统计量,或使用基于残差的Yuan-Bentler F检验(Yuan & Bentler, 1998a)。

(4)条目组或打包(Items Parcels or item parceling) 。由于单个指标很容易受极端值或极端反应的影响,特别是条目较多而可选项较少时,研究者常将几个条目相加(或求均值)组成项目包,然后再进行分析。这种做法可以使偏态的单个项目转换成正态(近似正态)分布。当然打包的前提是包内的条目属于同一维度,否则将产生新的问题(Bandalos, 2002; Bandalos & Finney, 2001; West, Finch, & Curran, 1995)。
(5)Bootstrap再抽样法。Bootstrap的原理是当正态分布假设不成立时,经验抽样分布可以作为实际整体分布用于参数估计。Bootstrap以研究样本作为抽样总体,采用放回取样,从研究样本中反复抽取一定数量(例如,抽取500次)的样本,通过平均每次抽样得到的参数作为最后的估计结果(Efron & Tibshirani, 1993; Mooney & Duval, 1993)。Bootstrap对非正态连续变量特别有用(Brown, 2006),但也有研究发现这种方法并非总是有效,在可靠性方面不如稳健参数估计法(Yung & Bentler, 1996; Yuan & Hayashi, 2003)。模拟研究还发现,在处理小样本时,Bootstrap法优于ML和S-B稳健估计法(Enders 2002; Fouladi 2000; Nevitt & Hancock, 2001),但在非常小的样本(N < 100)时则会产生不精确的参数估计,当然这也与模型复杂性有关。

转载请注明:数据分析 » 非正态数据处理_数据正态化处理

喜欢 (1)or分享 (0)