Transcript 赵健-列联分析.ppt
统 计 学 授课教师:赵健 黄淮学院经济管理系 第九章 列联分析 上节内容回顾 分类数据 性别 (男, 女)、你吸烟吗?(是,否) 分类数据的描述用列联表 分类数据的分析检验 2 r c ( f ij e ij ) 2 i 1 j 1 e ij 观察频数fij 期望频数eij (R-1)(C-1) 自由度不同的 2 分布 n=1 n=4 n=10 n=20 本章内容 1 拟合优度检验 2 独立性检验 3 列联表中的相关性测度 4 利用SPSS进行相应分析 拟合优度检验 导入案例 1912年4月15日,载着1316名乘客和892名船员的豪华巨轮“泰坦 尼克号”与冰山相撞而沉没,这场海难被认为是20世纪人类十大 灾难之一。 悲剧发生时,泰坦尼克号上一片混乱,在危急之中,人类本性中 的善良与丑恶、高贵与卑劣更加分明 。 2208人中,按性别划分,男性1738人,女性470人;按年龄划分 ,成人2099人,儿童109人;按所在舱位划分,一等舱325人,二 等舱285人,三等舱706人,船员舱892人; 导入案例 事故发生后幸存的718人中,按性别划分,男性374人,女性344人 ;按年龄划分,成人661人,儿童57人;按所在舱位划分,一等舱 203人,二等舱118人,三等舱178人,船员舱219人……. 数据是枯燥的,问题却是鲜活的:死亡与性别是否有关?与年龄 是否有关?与坐在舱位是否有关? 如何解释这些关系?与当时人们的价值观念和对待死亡的态度有 什么联系? 【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时 船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存 者共718人,其中男性374人,女性344人,以α=0.1的显著性水平检 验存活状况与性别是否有关。 海难前 海难后 男 1738 374 女 470 344 合计 2208 718 观测值 期望值 男 374 565 女 344 153 H0:观察频数与期望频数一致(无关) H1:观察频数与期望频数不一致(有关) f0 fe 观测值 f 0 期望值 f e f0 fe 2 f0 fe fe 男 374 565 -191 36481 64.6 女 344 153 191 36481 238.4 = 2 f0 fe fe 2 303 2 自由度:分类变量类型的个数-1=1 α=0.1 拒绝域 2 2.705 2 303 决策:拒绝H0 结论:有证据表明存活状况与性别显著相关 拟合优度检验步骤 1.检验实际频数与期望频数是否相等 2.检验的步骤 提出假设 H0:1 = 2 = … = j;H1: 计算检验的统计量 2 进行决策 1 , 2 , … , j 不全相等 r c ( f ij eij ) 2 i 1 j 1 eij 根据显著性水平和自由度(r-1)(c-1)查出临界值2 若2>2,拒绝H0;若2<2,接受H0 【例】一项统计结果声称,某市老年人口所占比例为 14.7%,该市老年人口研究会为了检验该项统计是否 可靠,随机抽选了400名居民,发现其中有57人老年 人。调查结果是否支持14.7%的看法? H0:观察频数与期望频数一致 H1:观察频数与期望频数不一致 观测值 f 0 期望值 f e f 0 f e f 0 f e 2 f0 fe 2 fe 老年人 57 59 -2 4 0.0678 非老年 人 343 341 2 4 0.0117 = 2 f0 fe fe 2 0.0795 自由度:分类变量类型的个数-1=1 α=0.05 拒绝域 3.8415 2 0.0795 决策:接受H0 结论:调查结果支持该项统计结论 独立性检验 观察值的分布(图示) 行边缘分布 条件频数 一分公司 二分公司 三分公司 四分公司 合计 赞成该方案 68 75 57 79 279 反对该方案 32 45 33 31 141 合计 100 120 90 110 420 列边缘分布 期望频数的分布 1. 假定行变量和列变量是独立的 2. 一个实际频数 fij 的期望频数 eij ,是总频数的个数 n 乘以该 实际频数 fij 落入第 i 行 和第j列的概率,即 ri c j eij n n n ri c j n 由于观察频数的总数为n ,所以f11 的期望频数 e11 应为 r e11 n 1 n 279 100 c1 r1 c1 66.43 66 n 420 n 期望频数的分布 (例题分析) 赞成该 方案 反对该 方案 一分公司 二分公司 三分公司 四分公司 实际频数 68 75 57 79 期望频数 66 80 60 73 实际频数 32 45 33 31 期望频数 34 40 30 37 实际频数 期望频数 (fij) (eij) 68 75 57 79 32 45 33 31 66 80 60 73 34 40 30 37 统计量(例题分析) fij - eij 2 -5 -3 6 -2 5 3 -6 (fij - eij 4 25 9 36 4 25 9 36 )2 (fij- eij)2 eij 0.0606 0.3125 0.1500 0.4932 0.1176 0.6250 0.3000 0.9730 合计:3.0319 ( f e) 2 e 3.0319 2 独立性检验(例题分析) H0: 1= 2= 3= 4 H1: 1,2,3,4 不全相等 = 0.1 df = (2-1)(4-1)= 3 临界值(s): =0.1 0 3.0319 6.251 2 统计量: 2 r c ( f ij eij ) 2 j 1 eij i 1 3.0319 决策: 在 = 0.1的水平上不能拒绝H0 结论: 可以认为四个分公司对改革方案的赞成比 例是一致的 本讲课程结束 黄淮学院经济管理