结构方程模型(SEM)

结构方程这几年热度不减，有必要研究一下它的R语言实现过程，今天先复习一下结构方程的相关理论，参考吉林大学余翠林的ppt

一、为什么使用SEM?
1、回归分析有几方面的限制：
（1）不允许有多个因变量或输出变量
（2）中间变量不能包含在与预测因子一样的单一模型中
（3）预测因子假设为没有测量误差
（4）预测因子间的多重共线性会妨碍结果解释
（5）结构方程模型不受这些方面的限制

2、SEM的优点：
（1）SEM程序同时提供总体模型检验和独立参数估计检验；
（2）回归系数，均值和方差同时被比较，即使多个组间交叉；
（3）验证性因子分析模型能净化误差，使得潜变量间的关联估计较少地被测量误差污染；
（4）拟合非标准模型的能力，包括灵活处理追踪数据，带自相关误差结构的数据库（时间序列分析），和带非正态分布变量和缺失数据的数据库。

3、结构方程模型最为显著的两个特点是：
（1）评价多维的和相互关联的关系；
（2）能够发现这些关系中没有察觉到的概念关系，而且能够在评价的过程中解释测量误差。
同时具有联系信息技术吸纳能力：
SEM能够反映模型中要素之间的相互影响；
吸纳能力概念作为一个重要的模型要素，难以直接度量，结构方程模型技术能够更为充分地体现其蕴含的要素信息和影响作用。

二、SEM的基本思想与方法

SEM是基于变量的协方差矩阵来分析变量之间关系的一种统计方法，实际上是一般线性模型的拓展，包括因子模型与结构模型，体现了传统路径分析与因子分析的完美结合。 SEM一般使用最大似然法估计模型(Maxi-Likeliheod，ML) 分析结构方程的路径系数等估计值，因为ML法使得研究者能够基于数据分析的结果对模型进行修正。
1、 SEM术语
（1）观测变量可直接测量的变量，通常是指标
（2）潜变量潜变量亦称隐变量，是无法直接观测并测量的变量。潜变量需要通过设计若干指标间接加以测量。
（3）外生变量是指那些在模型或系统中，只起解释变量作用的变量。它们在模型或系统中，只影响其他变量，而不受其他变量的影响。在路径图中，只有指向其他变量的箭头，没有箭头指向它的变量均为外生变量。
（4）内生变量是指那些在模型或系统中，受模型或系统中其它变量包括外生变量和内生变量影响的变量，即在路径图中，有箭头指向它的变量。它们也可以影响其它变量。

2、结构方程模型示意图

观测变量通常用长方形或方形表示,外生观测变量用x表示，内生观测变量用y表示。潜变量用椭圆或圆形表示，外生潜变量通常用ξ表示，内生潜变量通常用η表示。 δ外生观测变量x的误差；ε内生观测变量y的误差。

3、结构方程
结构方程模型通常包括三个矩阵方程式:

Λx—外生观测变量与外生潜变量直接的关系，是外生观测变量在外生潜变量上的因子载荷矩阵；
Λy—内生观测变量与内生潜变量之间的关系，是内生观测变量在内生潜变量上的因子载荷矩阵；
В—路径系数，表示内生潜变量间的关系；
Г—路径系数，表示外生潜变量对内生潜变量的影响；
ζ—结构方程的残差项，反映了”在方程中未能被解释的部分。

三、结构方程模型的四大步骤
1、模型构建
构建研究模型，具体包括：观测变量（指标）与潜变量（因子）的关系，各潜变量之间的相互关系等
2、模型拟合
对模型求解，其中主要是模型参数的估计，求得参数使模型隐含的协方差距阵与样本协方差距阵的“差距”最小
3、模型评价
检查1）路径系数/载荷系数的显著性；2）各参数与预设模型的关系是否合理；3）各拟合指数是否通过

4、模型修正

模型扩展（使用修正指数）或模型限制（使用临界比率）

四、具体过程

1、数据准备

样本量：一般认为样本数最少应在100以上才适合使用最大似然估计法（MLE）来估计结构方程（侯杰泰，2004），但样本数过大（如超过400到500时），MLE会变得过度敏感，容易使所有的拟合度指标检验都出现拟合不佳的结果（侯杰泰，2004）。
缺失数据处理：列删除法、配对删除法、插补法

2、一般应用SEM的论文中的数据分析

（1）.信度、效度检验
信度 Cronbach’s >0.7
效度验证性因子分析
（2）. 评估模型拟合度

即
估算每一个因子的载荷量
标准化因子载荷，反映了观测变量影响潜在变量的部分差异，用于表示观测变量与潜变量之间的相对重要程度。
检查每一个单一因子的测量模型对问卷数据的拟合度
检查整个模型对问卷数据的拟合度
估算潜变量之间的关系

五、 SEM的主要拟合度指标

1、基本拟合标准

基本拟合标准是用来检验模型的误差以及误输入等问题。
主要包括：
（1）不能有负的测量误差；
（2）测量误差必须达到显著性水平；
（3）因子载荷必须介于0.5-0.95之间；
（4）不能有很大的标准误差。
2、模型内在结构拟合度

模型的内在结构拟合度是用来评价模型内估计参数的显著程度、各指标及潜在变量的信度。
主要包括：
（1）潜变量的组成信度（CR），0.7以上表明组成信度较好；
潜变量的CR值是其所有观测变量的信度的组合，该指标用来分析潜变量的各观测变量间的一致性
（2）平均提炼方差(AVE)，0.5以上为可以接受的水平。
AVE用于估计测量模型的聚合效度，反映了潜变量的各观测变量对该潜变量的平均差异解释力，即潜变量的各观测变量与测量误差相比在多大程度上捕捉到了该潜变量的变化。
3、整体模型拟合度

整体模型拟合度是用来评价模型与数据的拟合程度。
主要包括：
（1）绝对拟合度，用来确定模型可以预测协方差阵和相关矩阵的程度；
（2）简约拟合度，用来评价模型的简约程度；
（3）增值拟合度，理论模型与虚无模型的比较。

包括
（1）χ2卡方拟合指数检验选定的模型协方差矩阵与观察数据协方差矩阵相匹配的假设。原假设是模型协方差阵等于样本协方差阵。如果模型拟合的好，卡方值应该不显著。在这种情况下，数据拟合不好的模型被拒绝。
（2）RMR 是残差均方根。RMR 是样本方差和协方差减去对应估计的方差和协方差的平方和，再取平均值的平方根。RMR应该小于0.08，RMR越小，拟合越好。
（3）RMSEA 是近似误差均方根 RMSEA应该小于0.06，越小越好。
GFI 是拟合优度指数，范围在0和1间，但理论上能产生没有意义的负数。按照约定，要接受模型，GFI 应该等于或大于0.90。
（4）PGFI 是简效拟合优度指数。它是简效比率(PRATIO，独立模式的自由度与内定模式的自由度的比率)乘以GFI。 PGFI 应该等于或大于0.90，越接近1越好。
（5）PNFI 是简效拟合优度指数，等于PRATIO乘以 NFI。 PNFI应该等于或大于0.90，越接近1越好。
（6）NFI 是规范拟合指数，变化范围在0和1间， 1 = 完全拟合。按照约定，NFI 小于0.90 表示需要重新设置模型。越接近1越好。
（7）TLI 是Tucker-Lewis 系数，也叫做Bentler-Bonett 非规范拟合指数 (NNFI)。TLI接近1表示拟合良好。
（8）CFI 是比较拟合指数，其值位于0和1之间。CFI 接近1表示拟合非常好，其值大于0.90表示模型可接受,越接近1越好。

六模型修正
研究者可以参考察初始模型的显著性检验结果和软件（AMOS）提供的模型修正指标对模型进行修正。
(1)模型扩展添加新路径，提高模型的拟合度
修正指数(modification index)
整个模型改良时卡方值减少
(2)模型限制删除或限制部分路径，提高模型可识别性
临界比率(Critical ration for difference)
使结果更具有现实性和解释性
七、一个例子—— 消费者网上信任模型

转载请注明：数据分析 » 结构方程模型(SEM)_结构方程模型_结构方程模型及其应用