回归分析中的控制变量_回归分析中控制变量-数据分析

关键词：回归分析控制变量、spss 回归控制变量

经常看到关于SPSS回归分析的文章里，除了自变量和因变量外，还有控制变量，控制变量在SPSS里面如何应用呢，是不是和自变量一起添加进SPSS里，得到结果后，再和未添加控制变量的结果进行对比分析呢。

解答：dummy只是最简单粗暴的控制变量，就是个0/1开关；绝大多数的控制变量都是连续的

各种回归中因变量不用说了，自变量吗，有研究者希望研究的因素，也有并不想考虑，但又无法排除的因素，比如研究体重，就要考虑性别年龄种族饮食习惯等等，假如想弄清楚体重和饮食习惯的关系，只考虑这两者显然是不行的，因为体重还和其它因素有关，于是就有了因变量是饮食习惯，同时又有诸如性别年龄等“控制因素”同时存在于某个模型的情况。控制因素的存在，目的是将因变量的比较固定于一个统一的基线。因为除了要研究的因素外，其它因素对因变量也是有影响的，而且不同水平下影响不同，这样，在不同水平下比较同一事物就不合适，而将所谓控制因素固定后，因变量的影响就可以在统一水平下比较了。
spss中，所谓影响因素和控制因素也是相对的，都是自变量，也就同时进入模型（假如都有意义），只是解释的时候有：在控制了其它因素的影响下，影响因素的作用如何如何的说法。
控制了其它因素的影响后如何如何，不是和未添加控制因素的结果相比较，如果只有影响因素而没有其它控制因素存在（这些因素确实对因变量有影响），那么这个模型对客观事物的描述自然是不完全的，这种情况下的解释就只能是：在不考虑其它控制因素的前提下，因变量对自变量的影响如何如何。不过，这恐怕就免不了编辑的大斧了。

********

再说一遍，不一定正确，自己的理解而已。
有些自变量>0.05,说明有它没它对模型的解释能力没影响，这种情况一般是使用者筛选变量时使用的是enter方法造成的，不是错误，如果使用逐步法，那么这些>0.05的变量一般就不会保留在模型中了。至于这0.05界限，可以自己设定，比如0.01，总之是个小概率事件的界限。据说有些时候你要研究的因变量也就是所谓影响因素的显著性也会>0.05的，这种情况可以将其强行保留在模型中，当然解释的时候就只能说：在控制了其它变量后，影响因素对自变量的影响并不明显云云了。

*******

假如研究在控制了变量A和B的情况下，C对D的影响。是不是在回归的时候，不需要区分自变量C还是控制变量A、B，只需要把它们全部加入模型中进行回归。回归出来结果后，说在控制了A、B的情况下，C对D的影响是怎样的？

****

感觉基本如此，但很多情况下C作为研究变量，它的分组分级等情况是根据研究目的做出的，比较复杂一点；而A和B作为控制变量就相对简单，而且，所谓“在控制了A、B的条件下……”，是指将控制变量置于一个固定水平的条件下，C对D的影响。至于置于什么固定条件，依软件不同而不同，比如SPSS通常是控制变量的最后一个水平，而Stata是赋值最小的那个水平。

****

我对这个问题的理解是这样的，要排除控制变量的影响，应该首先用控制变量和因变量做回归，然后再加入自变量，看模型R方的变化情况。具体操作时，先将控制变量放到BLOCK的第一层，然后将自变量放入第二层，在statistics里面选择changed R2。
在最后呈现的结果里面，有用控制变量和因变量做回归的模型A，和控制变量、自变量和因变量做回归的模型B，模型B比模型A增加的R2，就来自于自变量的作用，如果R2的变化显著，就说明自变量对因变量是有影响的。

****

虚拟变量只是控制变量的一种，其实也就是分类变量。控制变量也可以是连续变量。软件“控制”这些变量的方法吗，在下知道两种：对于分类变量，取其最大值或最小值为对照基线，可以临时更改（这里的最大、最小是指你对变量分类的数字定义，不是指实际含义）；对于连续变量，取其均数为对照基线，也可更改，比如所谓“对中”。
“控制”的含义就是将不打算作为主要因素分析的协变量都固定在某个水平，然后在此条件下观察要分析的主要因素对因变量的作用。

****

大概情况是这样：在实际研究中，控制变量和研究变量肯定是混在一起的，只是我们的研究对某项变量感兴趣，这就是所谓研究变量（自变量）了，但其他影响因素也必须考虑，其实也就是说有些我们不想要的变量，但它们的的确确存在，而且影响我们的研究结果，那么，怎么才能客观地在有其它变量存在的情况下衡量研究变量（自变量）的影响呢？最常见的方法，就是将我们研究中存在的其它变量（也叫混杂因素了）固定于某个水平（在连续变量，多取平均数；在分类变量，多取最小或最大水平），研究变量的所有结果，都是相对于这些混杂因素的某个取值而言的，所谓“在控制了**因素之后”，其含义其实就是自变量的所有变化，都有一个统一的比较水平，而不是一部分值是在混杂变量最小值的时候取得的，而另一部分是在混杂变量是最大值的时候取得的。只有这样比较才本质上公平，是不是？
俺不是专业的，措辞可能不严谨不连贯，就请多多包涵了，呵呵。

其实呢，“在控制了**因素之后”很有些套话的意味，但大家都这么说，显得对统计原理是了解的，呵呵。现在多因素分析都用程序，估计没人会手工将研究因素的值“对齐”于某个混杂因素的某水平，这样说，仅仅说明了我的研究已经考虑到了混杂因素的存在，也考虑到了比较基线的一致性。

***

是这样。其实控制变量和自变量对人不同但软件不管这些，对软件来说都是影响因素，它只是按统计规则和算法计算，怎么分析看自己了。只要指定因变量，一切都交由软件处理，我们不必关心具体的计算过程（实际上手工也没法算，太复杂了）。其实在实际工作中，可能遇到我们认为影响重大的因素反而不如混杂因素的回归系数大的情况，甚至有研究因素对于因变量无影响的情况，这个是我们的设计问题。不过，为了解释方便（只是为了解释方便）多把自己认为最重要的影响因素放在前面。虽然放在影响因素队列的任何地方结果都一样，但很多时候结果表现“不一样”，虽然仔细分析下只是因为顺序的不同罢了，但此种情况你自己懂得，其他人要懂就要费些周折，所以习惯上都放前面。

对于多数软件来说，影响因素的性质还需指定，比如指定某因素是连续型，那么软件会将此因素下的数字自动取均值，意味着因变量所有变异都是相对此因素的均值说的，这个数值是比较的起点，是逻辑上的“1”；指定某因素为分类变量，那么软件就自动取最小水平或最大水平，意味着因变量所有变异是基于这个水平说的。如果还要分析其它水平的影响，那么在最小水平（或最大水平）为“1”的情况下再乘以其它水平的回归系数。

转载请注明：数据分析 » 回归分析中的控制变量_回归分析中控制变量