题组测验的信息校正方法-基于IRT方法和GT方法的结合

来源 :中国心理学会,江苏省心理学会 | 被引量 : 0次 | 上传用户:huiyigng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  题组(Testlet)是指共用背景材料的一组题目.例如,阅读理解、完型填空、选择搭配、图表题等都是常见的题组.题组有其特点和优势,如,能够体现知识的具体情境性和关联性;多个题目共用同一背景材料,可提高测验效率等.由于同一题组中题目的共同情境性和相互关联性,题组中题目往往难以满足局部独立性(Local Independency),产生局部项目依赖(Local Item Dependence,LID).采用传统的以局部独立性强假设为前提的IRT模型(如,Rasch模型,两参或三参逻辑斯蒂模型等)进行参数估计是会出现问题的,如,高估被试能力参数估计精度,高估信息量,低估能力估计标准误等.在过去20几年中,研究者们对处理LID的方法进行了大量研究,如,Sireci等(1991)采用多级评分IRT 模型处理LID,Bradlow等(1999)提出了题组反应模型,题组反应模型在传统IRT模型的基础上增加了题组效应参数.DeMars(2006)将两因子模型用于题组测验.通过对代表性文献的梳理,发现题组反应模型已发展出一族模型,并形成题组反应理论(Testlet Response Theory,TRT),且在所有处理LID的方法中,题组反应模型是应用最广泛的模型.通常采用MCMC 方法对题组模型进行参数估计,但采用MCMC方法的一个最大的问题在于程序运行耗时长.因而,Li2009)提出将IRT和GT方法结合,采用IRT方法进行参数估计,并用GT分析方法进行信息矫正,通过概化分析可以得到题组设计和独立项目设计的随机误差方差比,用这个比值来校正由于采用标准IRT模型对题组测验分析而导致的低估的能力参数估计方差,用该比值的倒数来校正测验信息量.如果该信息矫正方法能够将测验信息量矫正到合适水平,这可大大节省程序运行时间,提高参数估计效率.本研究采用R软件模拟生成数据,调用WINBUGS软件,采用MCMC方法进行参数估计.项目反应模型采用2PL-IRT模型,题组反应模型采用2PL-TRT模型.设置了3个因素:题组效应、题组长度和题目数量.题组效应分为0、0.5、1.0和2.0;题组长度分别为2、5和10;题目数量分别为20、40和60,共有36种模拟条件.由于程序正在运行中,尚未出模拟研究结果,故暂时不能提供结果和结论部分.待结果出来予以补充.
其他文献
心理软计算是心理学和软计算结合的产物。软计算是在生物界现象启迪下提出的理论和方法,包括神经网络、遗传算法、粒子群、蚁群算法、支持向量机、模糊集、粗糙集等,它能够对模糊的、粗糙的数据进行分析,能够对变量间不清晰的关系进行建模。
作为新一代教育测量的核心的认知诊断评估倍受关注,认知诊断评估利用被试在标定了项目属性的测试项目上的作答反应,对被试知识、技能或属性的掌握情况进行推断或分类,反馈测试结果给学生、老师等以供补救教学之用。
计算机化自适应测验(CAT)的实施需要大型题库,题库中的项目要有项目参数,目前参数估计多采用统计方法(漆书青等人,2002),它需要有较多的被试和较多的项目,对于样本容量较少的测验,用统计的参数估计方法可能会出现不收敛或精度不够等问题。
研究目的:修订人际价值观环形量表(Circumplex Scales of Interpersonal Values,CSIV),并对其进行信效度检验,以期为未来临床工作评估个体的人际适应发展程度及病理心理机制的研究提供有效、简便的测量工具。研究内容:(1)对量表理论进行文献调研;(2)修订CSIV:根据预调研资料、初测项目分析结果修改CSIV项目,确定CSIV翻译稿;采用方便抽样,对725名大学
现有有关自我宽恕的界定往往缺乏人际间特征与个体内特征的整合.除此之外,本土化研究表明,中国社会是一个“自我主义”社会,相对于西方人的“独立型自我”,中国人更偏向于“互倚型自我”.因此,整合自我宽恕的个体内特征和人际间特征是编制适用于中国大学生的自我宽恕倾向问卷的不可或缺的一部分.在前人有关自我宽恕界定的基础之上,弥补前人研究之不足,结合本土文化,提出自我宽恕倾向的涵义为:个体意识到自己的错事之后,
测验维度是数据背后的潜在能力或者构念的个数以及他们之间的关系.维度评估是一个既有统计学意义又有本质意义的探索项目与潜在变量(特质)的关系,以及项目与维度之间的关系的过程.统计上的意义是确定维度的个数,本质上的意义是确定维度之间、以及项目与维度之间的关系.通过检验测验的维度,研究者就可以将统计结果与本质意义结合起来,达到更好的解释被试与题目的相互作用的目的.对多维测验的维度结构的评估方法有很多,以往
多阶段混合增长模型(Piecewise growth mixture modeling,PGMM)可以同时考察发展趋势不连续和发展群体不同质的问题,在实际研究中具有特殊作用.通过模拟研究,考察潜类别距离和发展形态等因素对模型选择和参数估计的影响,得到以下结论:(1)潜类别距离影响模型选择和分类效果.潜类别间距离较大时,BIC、熵值表现出一致性,均能选出正确的模型,得到正确的分类结果;但当潜类别间的
等值的研究对于考试的公平性、题库建设、教学质量评价和计算机自适应测验都具有重要的意义.随着考试研究的发展,题组形式越来越多地出现在测验中.如何更精确地对含题组的测验等值便成为一大难题.早期多采用项目反应理论(Item Response Theory,IRT)模型进行测验等值,需要满足局部独立性(LI)假设.然而,先前的研究表明,在包含题组的测试中通常存在局部依赖,违背了LI假设.若采用标准的IRT
项目反应理论下的测验信度(以下简称IRT信度),能够评价潜在特质估计的可靠性、稳定性,是测验分数精度和稳定性的宏观指标,而测验信息函数和项目信息函数是测验分数精度和稳定性的微观指标,故二者不可相互替代.现有的IRT信度及其估计值的影响因素研究,以及IRT信度估计方法的比较研究,并未涉及模型-数据资料拟合度.本研究将模型-数据资料拟合度以及信度估计方法作为自变量,能够为不同模型-数据资料拟合度水平下
个人拟合指数的相关研究日益受到关注,但由于多级计分测验分析的繁杂性,使得个体反应偏差在多级计分心理测验中的识别是国内外很少有人研究的领域.本研究在二级个人拟合指数(PFS)的基础上,基于等级IRT模型创造性地提出了多级计分心理测验中几个参数个人拟合指数的检测公式,并按照检测需要依据不同偏差类型、偏差个体比例及测验长度对两种多级计分测验的模拟数据进行对比分析,比较了各种实验条件下指数对作假行为识别的