论文部分内容阅读
在心理与教育测量的舞台上,多级计分的题目一直在其中扮演着非常重要的角色。相较于0-1计分的题目而言,多级计分的题目能够提供给施测者更为丰富的信息。因此,多级计分题目的测验公平性也一直受到大家的关注。然而,在认知诊断的背景下,对项目功能差异的研究目前都是基于0-1计分项目开展的。因此,本研究的主要目的是将几种常见的多级计分DIF检验方法引入到多级计分认知诊断中,以填补该领域的空白。本研究主要分为三个部分:研究一是根据多级计分DIF的概念以及认知诊断的特点,对多级计分认知诊断领域的DIF进行界定以及多级计分认知诊断DIF检验方法拓展。研究二通过模拟实验探讨在几种常见的缩减模型下,the mantel test、LDFA、LR检验以及Wald检验法在不同的实验条件下对一致性DIF检验的表现。研究三主要为通过模拟实验探讨在饱和模型seq-GDINA下,几种方法的在不同的实验条件下对一致性DIF的检验表现。除了模型上的差异,模拟实验中自变量还包括DIF大小、每组人数、DIF试题比例、DIF类型。研究结果表明:1)不论是在缩减模型还是饱和模型下,各方法均能对多级计分认知诊断中的一致性DIF进行有效的检验,且各方法的表现受模型的影响不大。2)以KS为匹配变量的LDFA方法和the mantel test对一致性DIF的统计检验力在所有方法中最高。3)两种基于模型的DIF检验方法:Wald检验和LR检验对I类错误的控制要优于两种不基于模型的DIF检验方法:LDFA方法和the mantel test方法。且在所有方法中,Wald检验对I类错误的控制最好。4)对于LDFA和the mantel test方法而言都有着两种匹配方式,在这两种匹配方式中,以KS为匹配变量时两种方法对一致性DIF的统计检验力都要比以总分为匹配变量时两种方法的统计检验力更高,且在I类错误上,以KS为匹配变量比以总分为匹配变量时I类错误率更低。5)在其他几种实验条件中,DIF量对各方法的表现影响最大,其次是组人数的大小,最后是DIF的题目比例。从方法的角度来讲,以总分为匹配变量的the mantel test方法和LDFA方法受实验条件的变化的影响最大,其余方法受实验条件变化的影响较小。