Transcript 对IRT模型拟合的评价
赵守盈 贵州师范大学 http://www.zhao1818.net 项目反应理论模型应用中须注意的几个问题 问题一:对IRT模型假设的评价 单维参数IRT模型有一个非常重要的假设 检验这一假设是否得到满足的方法之一是对项目 做主成分分析,考察特征根值的相对大小。探索 性因素分析常用特征根的值大于1这一标准来确定 因子个数[2](Loeh Lin,1987),但在IRT应用中, 即便是特征根大于1的因子有多个时,依然可以认 为单维性假设成立。 确定因子数的另一种方法是考察特征根碎石图, 这种方法是通过特征根的值迅速下降,曲线降转 变为平缓线型的节点来确定因子数目。 问题一:对IRT模型假设的评价 例如,对一30个项目的测验进行主成分分析, 发现特征根大于1的因子有5个,不过第一因 子的特征根(13.37)明显大于其它4个因子 (1.6,1.5,1.4,1.1),而且30个项目中有 29个项目在第一个因子上的标准化因子载荷 大于0.35,分布区间为0.28到0.81之间,平均 载荷值为0.65,根据这些观察结果即可以断定 该测验为单一维度,满足IRT的单维性假设。 问题一:对IRT模型假设的评价 这就是说可以综合考察特征根的大小,第一因子 各项目的载荷值分布范围以及各项目在第一因子 上的载荷值大小来确定IRT单维性假设是否得以满 足。同样,对于几个拥有二阶因子结构的项目组 来说,如果所有二阶因子都在同一个高阶因子上 有较大载荷值,也可以认为单维性假设得到满足, 当不能确切判断单一维度假设是否满足时,考察 IRT模型的分析结果是否因为违背单维性假设而出 现异常就变得非常重要(比如,是否存在1个或 多个区分度特别低的项目)。此外,如果将项目 的反应结果看作连续型数据不合适,最好采用分 类数据探索性因素分析技术。 问题一:对IRT模型假设的评价 IRT模型的第二个假设就是局部独立性 这一点从技术层面讲也属于单维性假设,要求除 了与测量的目标之间的关系,项目间不应该有另 外的系统性共变,否则就称为项目间存在局部依 存关系(LD)。 局部依存的潜在源头是项目有相同的题干(如, 所有项目都涉及身体疼痛,经历等),项目拥有 非常相似的内容或者项目循序出现等。 问题一:对IRT模型假设的评价 IRT模型的第二个假设就是局部独立性 有学者编制了检验二值计分项目局部依存的软件[6](Chen & Thissen,1997),但检验多值计分的项目依存性合适性软件还没有。 检验多值计分项目依存的替代性方法是验证性因子分析,在验证 性因子分析中,如果单一因子残差矩阵有过量的共变,则预示存 在局部依存,仔细考察这一残差矩阵或者观察与单一因子分析结 果对应的模型修正指数即可发现是否存在局部依存。 除此之外,IRT的分析结果也可以提供一些有用信息。对于短量表 来说,这些做法尤其有效。如果存在局部依存,就会衍生新的测 量的目标变量。如果两个项目存在高的局部依存,则这两个项目 的区分度就会显著大于其它项目,在这种情况下,应该将其中一 个项目删除,再重新进行IRT分析。参数IRT模型应用中涉及的最基 本假设之一是模型必须适用于数据。对这一假设进行检验涉及模 型的选择和模型拟合分析问题,接下来对这两个问题做详细讨论。 问题二:选择恰当的IRT模型 对于二值计分的项目来说,单参、双参以及三 参逻辑斯蒂模型均可用,对于多值计分项目来 说,各种部分计分模型[8-12](PCM,Masters, 1982; RSM, Andrich, 1978a, 1978b; GPCM, Muraki, 1992, 1997),等级反应模型[13, 14] (GRM,Samejima,1969,1997)以及称命模型 [15](Bock,1972)均会用到,其中等级反应模 型常用于顺序性反应项目,称名模型常用于无 确定性顺序反应项目。 问题二:选择恰当的IRT模型 Rasch 模型也是常用的IRT模型。Rasch模型的独到特点是 假定所有项目与作为测量目标的潜在特质之间存在相同的 相关关系,因此,所有项目的区分度参数相同。不管是二 值计分还是多值计分项目,选择模型时必须考虑的一个重 要问题就是是否将区分度参数释放的问题,也就是是否允 许不同的项目有不同的区分度。如果要释放项目区分度参 数则应该选择除Rasch模型之外的其它IRT模型,如果不释 放区分度参数则Rasch模型更为合适,因为这一类模型更为 简约,因而其运算优势也较为明显(比如,Rasch模型软件 可以更为丰富的分析结果,而且直接给出模型拟合的分析 结果)。不过,因为对项目区分度做了限定,即要求所有 项目的区分度相同,所以Rasch模型在精确反应数据信息方 面存在一定局限。 问题二:选择恰当的IRT模型 除了项目区分度参数的释放问题,对于二值计分的项目来 说还应考虑其猜测参数问题,这一问题通常是出现在学业 测量中。当然,在学业测量之外也有人考虑过这一问题[16] (如,Reise & Waller,2003),但由于其解释较为模糊,所 以使用并不普遍。 对于多值计分项目,称名模型适用于对项目的作答无具体 顺序性的情况,比如,在健康研究领域,对项目的反应多 为多个类别且有一定的顺序性,因此,不管是GPCM(或者 是Rasch模型中的PCMS)还是GRM都是适用的模型。在这两 类模型中做进一步选择通常取决于研究人员的偏好或者研 究人员对这两种模型软件的熟悉程度。(PARSCALE分析 PCM模型更为容易,MULTZLOG更适于GRM模型)。运用 TESTGRF软件[17](Ramsay, 1995)生成项目的描述图对于 确定适合数据的恰当IRT模型也能提供一些有用的参考信息。 问题三:对IRT模型拟合的评价 所有IRT模型的应用都是基于模型正确这一基本假设,IRT模型 的应用价值依赖于其对于数据信息反映的程度。在对IRT模型 与数据的拟合分析中,期望有一种诊断性工具来评价模型与 数据拟合的程度,模型的拟合可以通过比较模型预测结果与 被试的真实作答结果之间的差异大小进行分析,已经有多种 方法来实现这一思想。 对模型总体拟合情况进行直接评价存在很多挑战,也很少使 用。不过,对IRT模型与数据之间的拟合进行相对性评价运用 较多,其公式如下: 零模型的似然值 D 2 log 备选模型的似然值 D 2 作为零模型的对数似然值- 作为备选模型的三参数模型的对数似然值 问题三:对IRT模型拟合的评价 这一评价是通过对嵌套模型进行对数似然比计 算实现的,这一统计量符合x2 分布,例如, 检验2PL和3PL模型对一组项目的相对拟合情 况,可以检验其差异的显著性,其公式如下: D 2 作为零模型的对数似然值- 作为备选模型的三参数模型的对数似然值 ,其D统计值符合x2 分布,其自由度等于两个 模型参数的差异。如果分析结果达到显著水平 则认为3PLM对数据的拟合度更好。 问题三:对IRT模型拟合的评价 除了对模型与数据的总体拟合情况外,还可以评 价每个项目的拟合情况,对于Rasch模型来说, 由于观察分数可以作为被试能力水平θ的统计值, 各分数组的模型预测的比例也可以直接与实际观 察的结果进行比较,所以,Rasch模型的项目拟 合统计量的建构相对容易,到目前,研究者已经 提出了多种用于检验Rasch模型下项目拟合优度 的统计量[18-22](Anderson, 1973; Glas, 1988; Rost & Davier, 1994; Wright & Mead, 1977; Wright Panchapakesan, 1969),这些统计量在Rasch模 型专用软件包的分析结果中也大多可以得到。 问题三:对IRT模型拟合的评价 目前,研究者也构建了多种针对2PLM和3PLM的项目拟合优度统计 量,因为对于这两种模型来说,被试的能力为潜在变量,模型预测 的答对比例作为能力水平的函数,通常不能直接与观察数据进行比 较,所以这些统计量的建构就复杂得多。 有些针对二值计分项目的2PLM和3PLM的项目拟合优度是按照这样 的思路建构的:以基于模型估计的能力水平对被试进行分组,然后 计算各组的观察结果以及模型预测结果,并将这两种结果的差异作 为项目拟合优度的统计量,Yen的Q1 [23](Yen,1981),Bock的x2 [24](Bock,1972),以及McKinLey和Mill[25](1985)在Yen的基础上 提出的似然比G2 统计量都属此类项目拟合优度统计量,当项目数 多于20个时,BiLOG软件分析结果中会给出这些统计量,但在对这 些统计量进行解释时必须谨慎,因为其I类错误有被放大的倾向。 问题三:对IRT模型拟合的评价 近年来有研究从另外角度提出来了一些新的项目 拟合优度统计量[26, 27](Orlando &Thissen, 2000; 2003),这一统计量只针对二值计分的项目,以 各总分组被试模型预测和实际观察的答对频数与 答错频数为基础来计算,这一基于总分的方法构 建了两个新的统计指标:S- x2 (Pearson x2 值)和SG2 (似然比统计量G2 )。但针对多值计分的以似然 方法为基础的项目拟合优度指数的算法还在研究 过程中(Bjorner等)。虽然这些项目合优度统计 量在部分商用软件中还不能计算,但研究人员对 这些统计量的兴趣越来越强,已经开发出了免费 的计算S- x2 的软件。 问题三:对IRT模型拟合的评价 也有研究者提出了用图形直观呈现项目拟合情况的方 法,这些图形往往与项目拟合的统计指标结合使用, 或者作为项目拟合情况的初步诊断。Hambleton和 Swaminathan[28](1985)提出了一种通过图形直观比较 各能力组被试在项目的平均观察表现与模型预测表现 的方法。Wainer和Mislevy[29](1990)提出了与之相似的 另一种图示方法,他将观察数据和描线结合在一起构 建项目拟合情况直观图。Kingston和Dorans[30](1985) 将项目作答结果与能力水平的回归曲线作为判断项目 拟合情况的工具。也有研究者以后验概率分布为基础 构建项目拟合情况图[31, 32](Drasgow等,1995, Mislevy和Bock,1986)。 问题四:对测量工具进行评价的样本量要求 就样本大小来说,虽无确定性的要求,但也有一些一 般性论述和指导性原则。 首先,模型参数越少,对样本量的要求也越小,模型 越复杂,需要的样本量越大,有研究者认为,要得到 稳定的参数估计量,样本量不能少于100(Linacre, 1994,建议对于最简单的Rasch模型来说,至少需要 50个样本)。Tsutakawa和Johnson[33](1990)建议,要 使模型参数得以精确估计,样本量应该接近500,不过, 有其他学者建议有200个观察样本或者再少一点都可以 [34, 35](如,对于DIF的检验,Qrlando & Marshall, 2002; Thissen, Steinberg & Gerrard, 1986)。 问题四:对测量工具进行评价的样本量要求 其次,样本量越大,IRT 的项目参数和被试分数的估计就越精确 (标准误更小),这意味着参数估计的目的是一个值得考虑的问题。 对于不同的问题和不同的目的,对精确度水平的要求也不同。例如, 如果以评价问卷质量为目的,则不需要太大的样本量。但如果是以 获得被试在一个问卷上的精确IRT分数为目的,或者是为建设题库 对项目进行校准,则需要较大的样本量。 另外一个值得考虑的问题是被试样本的能力(潜在心理特质)分布, 较大的同质性被试样本不能够反映被试总体的特征,所以只能获得 潜在特质某一有限区间范围内得到参数的精确估计结果。从理论上 来说,被试的能力水平(潜在特质)在这一区域范围内应该呈均匀 分布,落在能力(潜在特质)分布两边较为极端位置的项目,如果 这一位置的被试较少,项目越满足IRT的单维性假设及条件独立性 假,而且难度水平也存在一定的差异,则需要的样本量就越小。 问题四:对测量工具进行评价的样本量要求 另外,项目得分与作为测量目标的潜在特质之 间的相关也是一个重要问题,如果相关较弱则 需要较大的样本量[36](Thissen,2003)。还有, 项目的反应类别越多,则待估计的项目参数也 就越多,需要的样本量也就越大。在理想情况 下,项目的各种作答结果上都应该有被试,不 过,在实际情况下,这一点很难得到满足,至 少是要求项目的各个反应类型都有被试选择, 这样才能保证IRT模型的各个分析指标及项目 参数得以全部估计。