[多元回归分析]SPSS中多元回归分析实例解析
关键词:spss多元回归分析步骤、spss多元回归分析、spss多元逐步回归分析
篇一 : SPSS中多元回归分析实例解析
SPSS中多元回归分析实例
在大多数的实际问题中,影响因变量的因素不是一个而是多个,我们称这类回问题为多元回归分析。可以建立因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型:
其中:b0是回归常数;bk(k=1,2,3,…,n)是回归参数;e是随机误差。 多元回归在病虫预报中的应用实例:
某地区病虫测报站用相关系数法选取了以下4个预报因子;x1为最多连续10天诱蛾量(头);x2为4月上、中旬百束小谷草把累计落卵量(块);x3为4月中旬降水量(毫米),x4为4月中旬雨日(天);预报一代粘虫幼虫发生量y(头/m2)。分级别数值列成表2-1。
预报量y:每平方米幼虫0~10头为1级,11~20头为2级,21~40头为3级,40头以上为4级。
预报因子:x1诱蛾量0~300头为l级,301~600头为2级,601~1000头为3级,1000头以上为4级;x2卵量0~150块为1级,15l~300块为2级,301~550块为3级,550块以上为4级;x3降水量0~10.0毫米为1级,10.1~13.2毫米为2级,13.3~17.0毫米为3级,17.0毫米以上为4级;x4雨日0~2天为1级,3~4天为2级,5天为3级,6天或6天以上为4级。
表2-1
x1
年 1960 1961 1962 1963 1965
x2 x3 x4 y
蛾量 级别 卵量 级别 10224 300 699
1 3
112 440 67 675 80
1 3 1 4 1
降水幼虫密
级别 级别雨日 级别
量 度 4.3 0.1 7.5 17.1 1.9
1 1 1 4 1
2 1 1 7 2
1 1 1 4 1
10 4 9 55 1
1 1 1 4 1
18764 43
1
多元回归分析 SPSS中多元回归分析实例解析
1966 1967 1976 1971 1972 1973 1974 1975 1976 1977 1978
422 806 115 718 803 572 264 198 461 769 255
2 3 1
20 510 240
1 3 2 4 4 2 3 2 1 4 1
0 11.8 0.6 18.4 13.4 13.2 42.2 71.8 7.5 44.7 0
1 2 1 4 3 2 4 4 1 4 1
0 3 2 4 3 4 3 5 5 3 0
1 2 1 2 2 2 2 3 3 2 1
3 28 7 45 26 16 19 23 28 44 11
1 3 1 4 3 2 2 3 3 4 2
3 1460 3 2 1 1 2 3 1
630 280 330 165 140 640 65
数据保存在“DATA6-5.SAV”文件中。(www.t262.com) 1)准备分析数据
在SPSS数据编辑窗口中,创建“年份”、“蛾量”、“卵量”、“降水量”、“雨日”和“幼虫密度”变量,并输入数据。再创建蛾量、卵量、降水量、雨日和幼虫密度的分级变量“x1”、“x2”、“x3”、“x4”和“y”,它们对应的分级数值可以在SPSS数据编辑窗口中通过计算产生。编辑后的数据显示如图2-1。
图2-1
多元回归分析 SPSS中多元回归分析实例解析
或者打开已存在的数据文件“DATA6-5.SAV”。(www.t262.com]
2)启动线性回归过程
单击SPSS主菜单的“Analyze”下的“Regression”中“Linear”项,将打开如图2-2所示的线性回归过程窗口。
图2-2 线性回归对话窗口
3) 设置分析变量
设置因变量:用鼠标选中左边变量列表中的“幼虫密度[y]”变量,然后点击
“Dependent”栏左边的向右拉按钮,该变量就移到“Dependent”因变量显示栏里。
设置自变量:将左边变量列表中的“蛾量[x1]”、“卵量[x2]”、“降水量[x3]”、“雨日[x4]”变量,选移到“Independent(S)”自变量显示栏里。
设置控制变量: 本例子中不使用控制变量,所以不选择任何变量。
选择标签变量: 选择“年份”为标签变量。
选择加权变量: 本例子没有加权变量,因此不作任何设置。
4)回归方式
多元回归分析 SPSS中多元回归分析实例解析
本例子中的4
个预报因子变量是经过相关系数法选取出来的,在回归分析时不做筛选。(www.t262.com]因此在“Method”框中选中“Enter”选项,建立全回归模型。
5)设置输出统计量
单击“Statistics”按钮,将打开如图2-3所示的对话框。该对话框用于设置相关参数。其中各项的意义分别为:
图2-3 “Statistics”对话框
①“Regression Coefficients”回归系数选项:
“Estimates”输出回归系数和相关统计量。
“Confidence interval”回归系数的95%置信区间。
“Covariance matrix”回归系数的方差-协方差矩阵。
本例子选择“Estimates”输出回归系数和相关统计量。
②“Residuals”残差选项:
“Durbin-Watson”Durbin-Watson检验。
“Casewise diagnostic”输出满足选择条件的观测量的相关信息。选择该项,下面两项处于可选状态:
扩展:spss多元线性回归 / spss多元线性回归分析 / 多元回归分析 spss
“Outliers outside standard deviations”选择标准化残差的绝对值大于输入值的观测量;
“All cases”选择所有观测量。
本例子都不选。
③ 其它输入选项
“Model fit”输出相关系数、相关系数平方、调整系数、估计标准误、ANOVA表。
“R squared change”输出由于加入和剔除变量而引起的复相关系数平方的
多元回归分析 SPSS中多元回归分析实例解析
变化。(www.t262.com]
“Descriptives”输出变量矩阵、标准差和相关系数单侧显著性水平矩阵。 “Part and partial correlation”相关系数和偏相关系数。
“Collinearity diagnostics”显示单个变量和共线性分析的公差。
本例子选择“Model fit”项。
6)绘图选项
在主对话框单击“Plots”按钮,将打开如图2-4所示的对话框窗口。该对话框用于设置要绘制的图形
的参数。图中的“X”和“Y”框用于
选择X轴和Y轴相应的变量。
图2-4“Plots”绘图对话框窗口
左上框中各项的意义分别为: ?
?
?
?
?
?
? “DEPENDNT”因变量。 “ZPRED”标准化预测值。 “ZRESID”标准化残差。 “DRESID”删除残差。 “ADJPRED”调节预测值。 “SRESID”学生氏化残差。 “SDRESID”学生氏化删除残差。
“Standardized Residual Plots”设置各变量的标准化残差图形输出。其中共包含两个选项:
“Histogram”用直方图显示标准化残差。
“Normal probability plots”比较标准化残差与正态残差的分布示意图。 “Produce all partial plot”偏残差图。对每一个自变量生成其残差对因变量残差的散点图。
本例子不作绘图,不选择。
7) 保存分析数据的选项
在主对话框里单击“Save”按钮,将打开如图2-5所示的对话框。
多元回归分析 SPSS中多元回归分析实例解析
图2-5 “
Save”对话框
①“Predicted Values”预测值栏选项:
Unstandardized 非标准化预测值。(www.t262.com]就会在当前数据文件中新添加一个以字符“PRE_”开头命名的变量,存放根据回
归模型拟合的预测值。
Standardized 标准化预测值。
Adjusted 调整后预测值。
S.E. of mean predictions 预测值的标准误。
本例选中“Unstandardized”非标准化预测值。
②“Distances”距离栏选项:
Mahalanobis: 距离。
Cook’s”: Cook距离。
Leverage values: 杠杆值。
③“Prediction Intervals”预测区间选项:
Mean: 区间的中心位置。
Individual: 观测量上限和下限的预测区间。在当前数据文件中新添加一个以字符“LICI_”开头命名的变量,存放
预测区间下限值;以字符“UICI_”开头命名的变量,存放预测区间上限值。
Confidence Interval:置信度。
多元回归分析 SPSS中多元回归分析实例解析
本例不选。[www.t262.com]
扩展:spss多元线性回归 / spss多元线性回归分析 / 多元回归分析 spss
④“Save to New File”保存为新文件:
选中“Coefficient statistics”项将回归系数保存到指定的文件中。本例不选。 ⑤ “Export model information to XML file” 导出统计过程中的回归模型信息到指定文件。本例不选。
⑥“Residuals” 保存残差选项:
“Unstandardized”非标准化残差。
“Standardized”标准化残差。
“Studentized”学生氏化残差。
“Deleted”删除残差。
“Studentized deleted”学生氏化删除残差。
本例不选。
⑦“Influence Statistics” 统计量的影响。
“DfBeta(s)”删除一个特定的观测值所引起的回归系数的变化。
“Standardized DfBeta(s)”标准化的DfBeta值。
“DiFit” 删除一个特定的观测值所引起的预测值的变化。
“Standardized DiFit”标准化的DiFit值。
“Covariance ratio”删除一个观测值后的协方差矩隈的行列式和带有全部观测值的协方差矩阵的行列式的比率。
本例子不保存任何分析变量,不选择。
8)其它选项
在主对话框里单击“Options”按钮,将打开如图2-6所示的对话框。
多元回归分析 SPSS中多元回归分析实例解析
图2-6 “Options”设置对话框
①“Stepping Method Criteria”框用于进行逐步回归时内部数值的设定。(www.t262.com]其中各项为:
“Use probability of F”如果一个变量的F值的概率小于所设置的进入值(Entry),那么这个变量将被选入回归方程
中;当变量的F值的概率大于设置的剔除值(Removal),则该变量将从回归方程中被剔除。由此可见,设置
“Use probability of F”时,应使进入值小于剔除值。
“Ues F value”如果一个变量的F值大于所设置的进入值(Entry),那么这个变量将被选入回归方程中;当变量的
F值小于设置的剔除值(Removal),则该变量将从回归方程中被剔除。同时,设置“Use F value”时,应使进
入值大于剔除值。
本例是全回归不设置。
②“Include constant in equation”选择此项表示在回归方程中有常数项。 本例选中“Include constant in equation”选项在回归方程中保留常数项。 ③“Missing Values”框用于设置对缺失值的处理方法。其中各项为: “Exclude cases listwise”剔除所有含有缺失值的观测值。
“Exchude cases pairwise”仅剔除参与统计分析计算的变量中含有缺失值的观测量。
“Replace with mean”用变量的均值取代缺失值。
多元回归分析 SPSS中多元回归分析实例解析
本例选中“Exclude cases listwise”。[www.t262.com]
9)提交执行
在主对话框里单击“OK”,提交执行,结果将显示在输出窗口中。主要结果见表2-2至表2-4。
10) 结果分析
主要结果:
表2-2
表2-2 是回归模型统计量:R 是相关系数;R Square 相关系数的平方,又称判定系数,判定线性回归的拟合程度:用来说明用自变量解释因变量变异的程度(所占比例);Adjusted R Square 调整后的判定系数;Std. Error of the Estimate 估计标准误差。
表2-3
表2-3 回归模型的方差分析表,F值为10.930,显著性概率是0.001,表明回归极显著。
注:Sig值是t统计量对应的概率值,所以t和Sig两者是等效的,看Sig就够了。Sig值要求小于给定的显著性水平,一般是0.05、0.01等,Sig越接近于0越好; R方衡量方程拟合优度,R方越大越好,一般地,大于0.8说明方程对样本点的拟合效果很好,0.5~0.8之间也可以接受。时间序列的话,R方很容易达到很大,如果是截面数据,R方的要求没那么严格。但要注意的是R方统计量不是检验的统计量,只衡量显著性; F是检验方程显著性的统计量,是平均的回归平方和与平均剩余平方和之比,越大越好。
“SIG”,SIG=significance,意为“显著性”,后面的值就是统计出的P值,如果P值0.01<P<0.05,则为差异显著,如果P<0.01,则差异极显著。
多元回归分析 SPSS中多元回归分析实例解析
表 2-4分析: 建立回归模型: 根据多元回归模型: 把表 6-9 中“非标准化回归系数”栏目中的“B”列系数代入上式得预报方程:预测值 的标准差可用剩余均方估计: 回归方程的显著性检验: 从表 6-8 方差分析表中得知:F 统计量为 10.93,系统自动检验的显著性水平为 0.001。[www.t262.com] F(0.05,4,11)值为 3.36,F(0.01,4,11) 值为 5.67,F(0.001,4,11) 值为 10.35。因 此回归方程相关非常显著。(F 值可在 Excel 中用 FINV( )函数获得)。 回代检验 需要作预报效果的验证时,在主对话框(图 6-8)里单击“Save”按钮,在打开如 图 3-6 所示对话框里,选中“Predicted Values”预测值选项栏中的 “Unstandardized”非标准化预测值选项。这样在过程运算时,就会在当前文件中 新添加一个“PRE_1”命名的变量,该变量存放根据回归模型拟合的预测值。 然后,在 SPSS 数据窗口计算“y”与“PRE_1”变量的差值(图 2-7),本例子把绝对 差值大于 0.8 视为不符合,反之则符合。结果符合的年数为 15 年,1 年不符合, 历史符合率为 93.75%。
扩展:spss多元线性回归 / spss多元线性回归分析 / 多元回归分析 spss
多元回归分析 SPSS中多元回归分析实例解析
图2-7
多元回归分析法可综合多个预报因子的作用,作出预报,在统计预报中是一种应用较为普遍的方法。(www.t262.com)
在实际运用中,采取将预报因子和预报量按一定标准分为多级,用分级尺度代换较大的数字,更能揭示预报因子与预报量的关系,预报效果比采用数量值统计方法有明显的提高,在实际应用中具有一定的现实意义。
扩展:spss多元线性回归 / spss多元线性回归分析 / 多元回归分析 spss
篇二 : 使用Excel数据分析工具进行多元回归分析
使用Excel数据分析工具进行多元回归分析与简单的回归估算分析方法基本相同。但是由于有些电脑在安装办公软件时并未加载数据分析工具,所以从加载开始说起(以Excel2010版为例,其余版本都可以在相应界面找到)。
点击“文件”,如下图:
在弹出的菜单中选择“选项”,如下图所示:
在弹出的“选项”菜单中选择“加载项”,在“加载项”多行文本框中使用滚动条找到并选中“分析工具库”,然后点击最下方的“转到”,如下图所示:
在弹出的“加载宏”菜单中选择“分析工具库”,然后点击 “确定”,如下图所示:
加载完毕,在“数据”工具栏中就出现“数据分析”工具库,如下图所示:
给出原始数据,自变量的值在A2:I21单元格区间中,因变量的值在J2:J21中,如下图所示:
假设回归估算表达式为:
试使用Excel数据分析工具库中的回归分析工具对其回归系数进行估算并进行回归分析:
点击“数据”工具栏中中的“数据分析”工具库,如下图所示:
在弹出的“数据分析”-“分析工具”多行文本框中选择“回归”,然后点击“确定”,如下图所示:
弹出“回归”对话框并作如下图的选择:
上述选择的具体方法是:
在“Y值输入区域”,点击右侧折叠按钮,选取函数Y数据所在单元格区域J2:J21,选完后再单击折叠按钮返回;这过程也可以直接在“Y值输入区域”文本框中输入J2:J21;
在“X值输入区域”,点击右侧折叠按钮,选取自变量数据所在单元格区域A2:I21,选完后再单击折叠按钮返回;这过程也可以直接在“X值输入区域”文本框中输入A2:I21;
置信度可选默认的95%。
在“输出区域”如选“新工作表”,就将统计分析结果输出到在新表内。为了比较对照,我选本表内的空白区域,左上角起始单元格为K10.点击确定后,输出结果如下:
第一张表是“回归统计表”(K12:L17):
其中:
Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(Multiple:复合、多种)
R Square:复测定系数,上述复相关系数R的平方。用来说明自变量解释因变量y变差的程度,以测定因变量y的拟合效果。此案例中的复测定系数为0.8343,表明用用自变量可解释因变量变差的83.43%
Adjusted R Square:调整后的复测定系数R2,该值为0.6852,说明自变量能说明因变量y的68.52%,因变量y的31.48%要由其他因素来解释。( Adjusted:调整后的)
标准误差:用来衡量拟合程度的大小,也用于计算与回归相关的其它统计量,此值越小,说明拟合程度越好
观察值:用于估计回归方程的数据的观察值个数。
第二张表是“方差分析表”:主要作用是通过F检验来判定回归模型的回归效果。
该案例中的Significance F(F显著性统计量)的P值为0.00636,小于显著性水平0.05,所以说该回归方程回归效果显著,方程中至少有一个回归系数显著不为0.(Significance:显著)
第三张表是“回归参数表”:
K26:K35为常数项和b1~b9的排序默认标示.
L26:L35为常数项和b1~b9的值,据此可得出估算的回归方程为:
该表中重要的是O列,该列的O26:O35中的 P-value为回归系数t统计量的P值。
值得注意的是:其中b1、b7的t统计量的P值为0.0156和0.0175,远小于显著性水平0.05,因此该两项的自变量与y相关。而其他各项的t统计量的P值远大于b1、b7的t统计量的P值,但如此大的P值说明这些项的自变量与因变量不存在相关性,因此这些项的回归系数不显著。
篇三 : 多元回归分析应注意的两个问题90
体育科研中运用多元回归分析时应注意的两个问题
回归分析是研究变量之间的相关关系的一种数理统计方法。在体育领域中存在着大量多因素(变量)的问题。所以,近年来体育科研中多元回归和逐步回归分析方法运用得越来越多了。
回归分析主要可用于解决下列问题:
(一)确定几个变量之间是否存在相关关系。如果存在,则找出它们之间合适的数学表达式──回归方程。如在体质研究、运动员选材研究中为了研究各项形态、机能、素质指标之间的相关关系,常常通过大样本统计数据计算各指标之间的相关系数rij,并建立各指标
之间的回归方程。如1979年全国体质调研后建立了18~25岁男青年的身高、体重对肺活量的二元回归方程:
Y=-2708+27.89X1+35.56X2
(肺活量) (身高) (体重)
(二)根据回归方程用一个或几个自变量的值预测或控制另一个因变量的取值。对于一些不容易测的指标,可以通过建立回归方程用几个比较容易测的指标来推测它的估计值。如果自变量选得恰当,这样的回归方程是很有实用价值的。如北京体院高强等人研究建立了推测快肌纤维百分比的三元回归方程:
Y=5.90+35.53 X1+18.2 X2一6.41 X3
(快肌%) (相对肌力) (MPE %) (IEMG)
只要进行肌肉力量和肌电图的几项测试,即可实现肌纤维成分的无损伤测定。
(三)进行因素分析。当许多个变量(因素)都对某一个变量有影响时,可以通过回归分析找出其中哪几个是重要因素,哪几个是次要因素。如对田径十项全能世界级优秀运动员的十项全能总分和十个单项成绩进行逐步回归计算,从中可筛选出四个比较重要的项自是:400米、铅球、110米栏、跳高。有的研究还根据多元回归方程的系数bi。或标准回归系数bi’ 来确定各指标的“权重”。
但是,近来在运用多元回归和逐步回归的研究论文中也出现了一些对回归分析的运用条件注意不够的问题。
一、样本含量n和自变量个数k之间的关系问题
复相关系数R是检验多元回归方程效果的重要指标。一般讲,R越接近1即表示回归方程的效果越好。因此当计算的结果R值接近l时,有些作者就立即认定计算结果十分理想。如“广东省少体校游泳运动员因素分析与运动模型,’(1983年全国体育统计报告会论文)一文中,男15~16岁组自由泳成绩与形态机能指标的十元回归方程R=0.999,十三元回归方程R=1。又如“对男女优秀篮球运动员五大关节活动幅度与运动成绩逐步回归的探讨”(体育科学86年1期)一文中,辽宁男篮队员运动成绩与四项关节活动幅度建立的四元回
归方程R=0.995,辽宁女篮队员运动成绩与七项关节活动幅度建立的七元回归方程R=1。作者都认为回归方程十分理想,并根据回归方程作了进一步的分析和结论。但是,再看回归方程中各个指标与因变量(Y)的相关系数则发现有许多指标和Y是不相关的(p>0.05)。可见,R接近1的原因并不是这些指标和Y相关程度极高,而是作者用于计算的样本n太小(游泳一文n=15,篮球一文n=10)。
在《体育统计方法》及一些数理统计书中,都指出:复相关系数R与多元回归方程中自变量的个数k及样本含量n有关。当n相对于k并不很大时,常有较大的R,当n=k+1时,即使这k个自变量与Y并不相关,也会R=1。
如设变量Y与另外K个变量 X1, X2??Xk的内在联系是线性的,它的第α次测试数据是:
(Ya,Xa1,Xa2??,Xak) a=1,2,?,n
则这一组数据可以有如下的结构式:
Y1=β0+β1X11+β2X12+??+βkX1k+ξ1
Y2=β0+β1X21+β2X22+??+βkX2k+ξ2
??
Yn=β0+β1Xn1+β2Xn2+??+βkXnk+ξn
其中:β0,β1??是K+ 1个待估计参数,X1,X2,??,Xk是K个可以精确测得的变量,ξ1,ξ2,??ξn是n个相互独立且服从正态分布N(θ,δ)的随机变量,这就是多元回归的数学模型。把它写成矩阵形式:
Y=Xβ+ξ
用最小二乘法原理,建立正规方程,可解出bo,bl??,bk。它们是参数β0,β1??βk的最小二乘估计,则多元回归方程为:
Y=bo+b1X1+b2X2+??+bkXk
计算bo, b1, b2,??,bk时要计算下列四个矩阵:X,A,C,B
其中:X是 n组侧试数据Ya的结构矩阵,A=X’X 是正规方程组的系数L ij矩阵, C=A是系数矩阵A的逆矩阵, B是正规方程组的常数项Liy矩阵。
多元回归的系数b=AB.可见,多元回归方程的系数bi的解是和所侧得的原始数据的组数(样本含量)n紧密相系的。可以推导出:当n=k + 1时,结构矩阵X是方阵,这时解出的bi,即使X,和Y全都不相关,仍可以得到:Q=E(Y-Y)=0亦即:U=Σbi Lij=Lyy所以R=sqrt(U/Lyy)=1。
为了用计算实例来说明以上的理论推导,我们随机抽取了K=34,n=10的一个样本。其中大部分X和Y是不相关的(即r iy的值,经检验为 P>0.05)。选取其中9个和Y不相关的X作九元回归计算,riy最小的为一0.011,最大的为0.471,均为P>0.05,计算结果见表1,虽然每个X的偏回归平方和Pi作F检验时,都是P>0.05,但复相关系数R=0.9999975。 把多元回归的X增加到15,20和34个时,R值分别为:0.9999891,1.000009,1.0000830-1 -1
可见当样本含量n太小与自变量个数K的比例不恰当时,解出的bi是不能正确地反映各自变量和Y之间的内在关系的。如果用这样的多元回归方程为依据去分析和作结论,就一定会产生谬误。
表1: K=9 n=10的多元回归计算结果
i
1
2
3
4
5
6
7
8
9 b i -60.35889 0.3407009 1.517284 2.002341 0.2552928 -6.171681 1.620504 -0.08038962 1.835966 -2.215276 P i 1.023885 4.210444 3.569278 0.0514697 2.057776 2.74502 0.0523418 1.7869 2.497759 F i 6.017856 E-39 2.474677 E-38 2.097833 E-38 0 1.209452 E-38 1.613378 E-38 0 1.050245 E-38 1.468051 E-38 R iy -0.094 -0.329 -0.011 -0.201 0.148 0.471 0.068 0.065 0.160 B i×Liy -2.166176 26.610420 -1.657173 -0.2532503 -16.49322 12.78416 -0.2451078 4.7166 13.23939 R=0 .9999975 Lyy=10.05696 U=10.05692
有的数理统计专著上提出:n应是 K的5~10倍,这是我们在计算时应特别注意的问题。 体育科研中,特别是研究优秀运动员的时候,样本含量一般都比较小。而希望分析与专项成绩有关的指标时,又常常取许多个Xi,所以,K和n的比例常是一个大问题。
我们认为:在运用多元回归分析时,首先应尽可能地扩大样本含量n,特别要注意n与K的比例。其次,在算出多元回归方程后,不仅要看R值的大小(或对方程作方差分析后的F值大小),还必须仔细看一下每个自变量的Pi的F检验结果,以决定这个方程是否具有实用价值。
二、自变量之间相关的问题
在体育科研中常常运用多元回归或逐步回归来进沂因素分析。即从许多个自变量Xi中分析哪几个是影响Y的主要因素,哪几个是影响Y的次要因素。
按照回归分析的原理,在多元回归中,回归平方和U是所有自变量对Y变差(波动)的总贡献。在原有的自变量中减去一个自变量后,U就会减小,减小的数值越大,就说明这个自变量对Y的作用越大。所以,把取消一个自变量后,回归平方和U减少的值称为:Y对这个自变量的偏回归平方和Pi。但是,通常情况下由于自变量之间互相存在着相关关系,所以ΣPi≠U,只有当各自变量之间的相关系数rij=0 即正规方程的系数矩阵为对角阵(除主对角线元素L11,L22,??,Lkk外其余元素全为0)时,才有U=ΣPi。
通过计算偏回归平方和Pi后可以作比较,Pi值越大的自变量对Y的作用就越大。如果Pi经F检验为P>0.05,就可认为它对Y的影响不显著。但是,这样用Pi来进行比较的前
提是:各自变量之间的相关程度应该很小,即r ij的绝对值都不大,其分析结果才正确。 可是,体育科研中对许多指标作回归分析时,往往自变量之间的相关程度都很高。如以100米跑成绩为Y,分析各项形态、机能、素质指标和100米跑成绩之间的关系时,形态指标中的身高、指距、下肢长??这类长度指标之间的rij都在0.8一0.9左右,体重和胸围、上臂紧张围、大腿围??等围度类指标之间的rij约在 0.8-0.9之间,素质指标中30米跑、立定跳远、纵跳??之间的rij也在0.77左右。如果计算者不注意自变量之间的相关性的问题,按计算的结果下结论,也会出现错误的。
因为,假设在一个多元回归中,X1和X2对Y的影响都很大,但是它们之间高度相关。由于X1对Y的影响中很大部分可以从X2对Y的影响中反映出来,这时如从回归方程中减去X1,U并不会减小很多,即P1的值一定不大,同样的理由,P2也不会很大。因此,这时看P1、P2的值就不能正确地反映出X1, X2对Y的重要性。
我们在一次四元回归计算中遇到这样一个实例(n=31),四个变量和Y之间的相关系数如表2: 由表2可见,X1 与 X2的相关系数r12=0.949呈高度相关,而其他Xi之间不仅相关系数rij的绝对值较小.而且P>0. 05,即相互之间相关不显著。再看表上r3y=0.245(P>0. 05),即X3与Y相关不显著。但做四元回归计算出的Pi(见表3),P2<P3而且对P2作F检验,F:=0.528( P>0.05),似乎可得出结论X2对 Y的影响比X3小,而且由于经F检验不显著应把X2剔除。
表2
X 1
X 2
X 3
X 4 X 2 0.949 ** X 3 0.151 0.188 X 4 -0.120 -0.099 0.190 Y -0.499 ** -0.434 * 0.245 0.741 ** 注:** 为P<0.01 * 为P<0.05
表3
P 1
P 2
P 3
P 4 四 元 0.9330939 0.1069112 0.6368567 8.62064 三 元 3.364034 0.7613853 9.039985
当我们考虑到X1和X2之间高度相关,而把X1剔除后再作三元回归计算(见表3),P2就大大地增大为3.364034不仅F检验结果P<0.01,而且因为P2>P3说明X2比X3的作用更大些。同时从表3上还可以看出,在四元回归中P1、P2都小于1,远比三元回归中的P2小。这个实例可以让我们更加理解回归分析原理中关于:自变量之间的相关性会给因素分析带来麻烦的阐述。我们认为:在做多元回归分析时,如遇到自变量之间相关程度较高,最好先做
R型聚类分析,然后从各类中选出一个典型指标,再做多元回归计算。但是有时两个相关的同类指标按专业知识分析都不应剔除,如在选材的形态指标中下肢长B和下肢长C虽然高度 相关,但这两个指标在选材中各有不同的意义,不能替代,都必须保留。这时如用多元回归计算Pi进行分析时,就应特别注意了。多元回归分析是体育科研中一个常用的计算方法, 以上是实际使用中较易出差错的两个问题,提出来与大家共同商讨,不当之处请批评。
转载请注明:数据分析 » [多元回归分析]SPSS中多元回归分析实例解析