卡方检验的运用
关键词:卡方检验的基本思想、卡方检验的适用条件、卡方检验的意义、卡方检验的自由度、卡方检验的应用条件、卡方检验的结果怎么看、数据分析
1、 问题的提出
许多实验工作者在对实验数据进行统计分析的时候经常会犯一类错误,就是在对定性资料分析的时候不考虑它是何种类定性资料而不假思索使用一般卡方检验,这种 做法有的时候是错误的,有的时候使得实验信息丢失了许多从而导致实验整体不够科学严谨。这就要求我们生物医学工作者合理选用统计分析方法处理各类定性资 料。
2、卡方检验的特点及应用
合理选用统计分析方法处理各种定性资料的关键在于准确的判断出各种列联表资料分类,列联表资料通常可分为:2×2表,R×C表,2×k表与k×2表,高维 列联表四大类。 各类资料又可细分为许多种类,并不是每一类资料都可以使用卡方检验,有的可以直接使用,有的根据实验目的的不同而选择使用,有的则不适宜使用。 卡方检验(也称为pearson 卡方检验)用于检验独立性,一般,有一个由大量个体构成的总体,每一个体上可量度两个属性指标:A,B。指标A分r级:A ,…,A ,而指标B分s级:B ,…B 级。从该总体中随机抽出n个个体,测得第i个个体的指标状况为(A ,B ),i=1,…,n. 要根据这些资料,判断各行频数分布是否相同,使用 卡方检验。
3、2×2表资料中应用实例
3.1横断面研究设计的2×2表资料中卡方检验应用
【例1】评价两种小儿细菌性肺炎治疗药物的有效率,将103例小儿患者随机分为两组,一组53例,一组50例,分别以药物阿莫西林钠(Ⅰ)和头孢呋新钠(Ⅱ)进行治疗,结果如下表1所示:
表1 两种治疗方法对小儿细菌性肺炎治疗效果比较
分组 |
例数 |
治疗效果: 有效 无效 合计 | |
Ⅰ组
Ⅱ组 合计 |
44 9 53
42 8 50 |
86 17 103 |
【例1分析】上表是关于两种治疗药物对小儿细菌性肺炎的治疗效果评价,可采用横断面研究设计2×2表资料中一般卡方检验。
3.2 队列研究设计的2×2表资料中卡方检验应用
【例2】为观察力肽注射液与氨基酸混合注射是否引起不良反应,将医嘱上要用力肽注射液的病人随机分为两组。A组大静脉营养袋组为12例,按输一天的量为1 次计算,输入力肽的次数达60次。B组与氨基酸配伍组为12例,按输一天力肽的量为1次计算,输入力肽次数共60次。结果如下表2所示:
表2 两种输液方法静滴力肽不良反应结果比较
分组 |
例数 |
输液结果:有不良反应 无不良反应 合计 | |
A组
B组 合计 |
1 11 12
7 5 12 |
8 16 24 |
【例2分析】这是一个队列研究设计的2×2表资料,即先有实验分组(即原因变量,力肽注射液,力肽注射液加氨基酸),而后观察是否有不良反应。针对该类资 料,按如下步骤进行计算,首先将其按照横断面研究设计的2×2表资料进行处理,计算卡方值,看其两行上的频数分布是否有统计学意义,若得到 P<0.05的结果时,需要进行第二步,否则停止计算;第二步,计算相对危险度RR(即relative risk,简称RR);第三步,运用MH卡方检验,检验总体RR与1之间的差别是否具有统计学意义。
3.3 病例对照研究设计的2×2表资料中 检验应用
【例3】某医院为了解老年病房呼吸ICU患者的医院感染状况,对2001年1月至7月患者的临床资料进行整理分析,取感染患者15例,未感染患者69例,调查他们抢救技术操作时使用气管插管方法或者使用呼吸机,如表3所示:
表3 患者医院感染与手术操作方法的关系
方法 |
例数 |
感染 未感染 合计 | |
气管插管
使用呼吸机 合计 |
10 33 43
5 36 41 |
15 69 84 |
【例3分析】这是一个病例对照研究设计的2×2表资料,即先有结果分组(感染患者与未感染患者),经过一段时间回顾性调查后才有有关可疑危险因素的接触情 况分组,本例为“气管插管”或“使用呼吸机”。针对该类资料,按如下步骤进行计算,首先将其按照横断面研究设计的2×2表资料进行处理,计算卡方值,看其 两行上的频数分布是否有统计学意义,若得到P<0.05的结果时,需要进行第二步,否则停止计算;第二步,计算优势比(即odds ratio,简称OR);第三步,运用MH卡方检验,检验总体OR与1之间的差别是否具有统计学意义。
3.4 配对研究设计的2×2表资料中卡方检验应用
【例4】某实验室用甲、乙两种方法测定95例样品,检测结果分为“+,-”,甲方法为金标准,试比较两种方法,如表4所示:
表4 甲乙两种方法测定结果比较
乙方法 |
例数 |
甲方法: + – 合计 | |
+
– 合计 |
85 5 90
3 2 5 |
88 7 95 |
【例4分析】甲方法是金标准,故该资料为特设金标准的配对设计四格表资料。若甲方法不是金标准,则仅当检测结果中隐含金标准(即不存在假阳性结果)时,可 以按如下的方法进行统计分析。若既没有金标准又不属于隐含金标准的实验研究问题,则不适合进行如下的数据分析。若原文的目的是为了比较两种检测方法的不一 致部分的频数之间的差别是否具有统计学意义,就应该选用配对设计定性资料的McNemar卡方检验;若原文的目的是为了检验PCR法和培养法检测结果是否 一致,就应该选用一致性检验,即Kappa检验。
4、R×C表资料中应用实例
4.1双向无序的R×C表资料中卡方检验应用
【例5】某医院对2001年至2002年该院四个不同科室对四种抗感染药物所开处方数进行调查,数据如表5所示:
表5 不同科室使用抗感染药物处方数
科室 |
处方数 |
种类:阿莫西林 青霉素V钾 头孢氨苄 琥乙红素合计 | |
小儿科 156 69 13 22 260
呼吸科 91 52 55 55 253 耳鼻喉科 44 40 59 20 163 普外科 28 4 61 2 95 |
|
合计 319 165 188 99 771 |
【例5分析】从上表看出资料的类型为双向无序的4×4列联表资料。最小的理论频数为99×95/771=12.2>5,因此,可以用一般卡方检验。
4.2结果变量为单向有序的R×C表资料中不适宜使用 检验
【例6】某研究者为了比较三种国产降压药的治疗效果,将病情相似的患者331例随机分为三组,比索洛尔组110例,依那普例组111例,缓释硝苯地平组110例。降压疗效如表6所示,试比较三组疗效的优劣。
表6 三组降压药治疗效果比较
分组 |
例数 |
治疗效果: 显效 有效 无效 合计 | |
比索洛尔
依那普例 缓释硝苯地平 合计 |
69 19 22 110
66 25 20 111 68 22 20 110 |
203 66 62 331 |
【例6分析】对于单项有序表而言,所选用的统计分析方法应当与有序的那个分组变量各水平的先后顺序或取值大小有关, 而一般卡方检验只能用来检验独立性,即各行频数分布是否相同,因此结果变量为单项有序的列联表不适宜使用 检验。在很多生物医学论文中经常会见到科研人员将“显效”与“有效”数据合并而使用一般卡方检验计算总有效率,这种方法处理结果变量为单项有序列联表资料 显得过于粗糙,丢失了很多实验信息,有时计算总有效率结果差别无统计学意义,但是将变量的有序性考虑进去计算结果差别可能是有统计学意义的。对于该类资料 可选用的统计分析方法有秩和检验、Ridit分析以及有序变量的Logistic回归分析。
4.2双向有序且属性不同的R×C表资料中卡方检验的选用
【例7】某研究人员在“对女性青少年特发性脊柱侧凸患者的髂软骨进行组织计量学研究来评价生长潜能预测因素的价值”实验中,对患者的月经来潮时间与组织学分级之间的关系进行分析,数据如表7所示:
表7 年龄与组织学分级的关系
月经来潮时间 |
例数 |
组织学分级:0级 Ⅰ级 Ⅱ级 Ⅲ级 合计 | |
0 ≤1年 >2.5年 ≤2.5年 ≤2年 合计 |
1 3 8 10 22
6 2 18 12 38 8 8 4 10 30 2 2 0 4 8 6 6 1 2 15 |
23 21 31 38 113 |
【例7分析】对于双向有序且属性不同的R×C列联表资料所采用的统计分析方法不能一概而论,应视具体的分析目的而定,一般来说,有四个可能的分析目的,即:
第一个分析目的,希望考察,希望考察各行上频数分布是否相同,此时,将此资料视为双向无序的R×C列联表资料,可根据资料具备的前提条件,选用一般卡方检验或者Fisher精确检验。
第二个分析目的,只关心各组结果变量即“组织学分级”取值之间的差别是否具有统计学意义,此时原因变量即“月经来潮时间”的有序性就变得无关紧要 了,可将此时“双向无序R×C列联表资料”视为“结果变量为单项有序的R×C列联表资料”,可以选用的统计分析方法有秩和检验、Ridit分析以及有序变 量的Logistic回归分析。
第三个分析目的,希望考察原因变量即“月经来潮时间”与结果变量即“组织学分级”之间是否存在线性相关关系,此时,需要选用处理定性资料的相关分析方法,通常采用Spearman秩相关分析方法。
第四个分析目的,若两个有序变量之间存在的相关分析有统计学意义,研究者希望进一步了解这两个有序变量之间的变化关系是呈直线关系还是呈某种曲线关系,此时宜选用线性趋势检验。
4.4双向有序且属性相同的R×C表资料中不适宜使用卡方检验
【例8】某医院对100例脑肿瘤患者的临床诊断结果与CT诊断结果进行分析,数据如表8所示:
表8 100例脑肿瘤患者的临床诊断与CT诊断结果
临床诊断 |
例数 |
CT诊断: 检出 疑惑 未检出 合计 | |
检出
疑惑 未检出 合计 |
60 4 2 66
4 12 3 19 3 3 9 15 |
67 19 14 100 |
【例8分析】双向有序且属性相同列联表是一个“方形”列联表,它的主要目的是希望回答行变量与列变量的检测结果是否一致问题。该类资料常用一致性检验(Kappa检验)。
5、k×2表与2×k表资料中应用实例
5.1 k×2表资料中 检验的选用
【例9】某医院调查老年呼吸ICU病房感染情况,分析住院时间与感染之间关系,数据见表9:
表9 住院天数与医院感染的关系
住院时间 |
例数 |
感染情况: 感染 未感染 合计 | |
>30天 20~30天 10~20天 <10天 合计 |
12 6 18
5 8 13 2 4 6 1 2 3 |
20 20 40 |
【例9分析】对于K×2表资料,原因变量如果为多值名义资料可按双向无序的R×C表资料进行分析,采用一般 检验或Fisher精确检验。如果原因变量为多值有序变量则要看分析目的如果要分析原因变量间的频数分布是否相同,则可用一般卡方检验或Fisher精确 检验;如果要分析第一列(或第二列)上的频数变化是否呈线性趋势,则要选用线性趋势(Cochran-Armitage Test)。对于本例资料,原因变量为多值有序变量,使用Fisher精确检验。
5.2 2×k表资料中卡方检验的选用
【例10】某医院皮肤科于2006年5月至2007年1月应用丹参酮胶囊治疗痤疮85例,比较效果,具体数据见表10:
表10 三组降压药治疗效果比较
分组 |
例数 |
治疗效果: 痊愈 显效 进步 无效 合计 | |
治疗组 对照组 合计 |
28 42 13 2 85
18 28 21 4 71 |
46 70 34 6 156 |
【例10分析】对于2×k表资料如果结果变量为多值名义变量可按双向无序的R×C表资料进行分析,采用一般性 检验或Fisher精确检验。如果结果变量是多值有序变量,则可按结果变量为单项有序的R×C表资料进行分析,采用秩和检验或Ridit分析等方法。对于 本例资料结果变量为多值有序变量,不适宜采用一般卡方检验,应选用秩和检验或Ridit分析。
6、高维列联表资料中应用实例
【例11】某实验研究对甲磺酸加替沙星氯化钠注射液和盐酸左氧氟沙星氯化钠注射液对不同致病菌感染疗效进行比较,得到数据如表11所示:
表11 加替沙星(实验组)与左氧氟沙星(对照组)细菌学疗效评价
菌株类型 分组 |
例数 |
治疗效果: 有效 无效 | |
葡萄球菌 实验组
对照组 埃希氏菌属 实验组 对照组 假单胞菌 实验组 对照组 克霉伯菌 实验组 对照组 |
12 2
9 0 25 1 25 1 12 3 11 3 11 1 12 1 |
【 例11分析】该例为三维列联表,可使用加权卡方检验,即控制菌种类型这一原因变量的影响,考察分组与治疗效果之间的关系。如果结果变量属于病例对照研究,考察原因变量与是否发病之间的比数比OR,并对它做显著性检验,可以使用CMH加权卡方检验.
转载请注明:数据分析 » 卡方检验的运用_卡方检验的基本思想_卡方检验的适用条件