计算机化自适应测验中两种新的在线标定方法

来源 :中国心理学会,中国教育学会 | 被引量 : 0次 | 上传用户：aolongjiutian

【摘要】

：

【作者】

：

陈平

【机构】

：

北京师范大学中国基础教育质量监测协同创新中心

【出处】

：

中国心理学会,中国教育学会

【发表日期】

：

2016年7期

【关键词】

：

计算机化自适应测验在线标定题库建设全功能极大似然估计量

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着计算机化自适应测验(Computerized Adaptive Testing, CAT)的不断发展,出现很多新的问题与挑战.比如当CAT用于连续施测时,测验管理者需要定期开发新题、标定新题,然后将其添加到题库当中以替代过时的、有瑕疵的以及过度曝光的题目.由于新题的标定精度会直接影响后续评分过程中的能力估计准确性,所以对新题的准确标定至关重要.相对于传统的离线标定方法,在线标定技术具有很多独特的优点(Parshall,1998), 目前被广泛地应用于CAT的新题标定中.作为思想最简单、实施最直接的CAT在线标定方法,MethodA方法具有明显的理论缺陷,即它在标定过程中将能力估计值看成是能力真值,从而忽略了能力估计的测量误差.为了克服MethodA的上述不足,本文分别将全功能极大似然估计量(Full Functional Maximum Likelihood Estimator, FFMLE)和“利用充分性结果”估计量(an Estimator which Exploits the Consequences of Sufficiency, ECSE) (Stefanski&Carroll,1985)的误差校正思路融入MethodA,从理论上对能力估计误差进行校正.两种新方法分别记为FFMLE-Method A和ECSE-Method A.

其他文献

基于二阶段测验Q矩阵估计方法的开发及应用

认知诊断以微观认知角度对被试做出准确评估与反馈的优势在心理与教育测量领域中展现出巨大的发展潜力。但是，要利用这种优势就必须确保测验Q矩阵的合理性。以往研究构建测验Q矩阵主要依赖专家的经验，其缺点是专家的水平及意见统一与否会严重影响Q矩阵的正确性，而错误界定的Q矩阵会对模型参数估计和被试分类准确性带来严重影响。为克服该困难，国内外研究者相继开发出基于被试作答反应数据的Q矩阵估计方法，以数据驱动视角为

会议

认知诊断测验Q矩阵估计二阶段估计法贝叶斯法非线性惩罚估计法

MHK四级复述题计算机自动评分的可行性分析和信度研究

主观性试题因其具有的诸多优势常被用来测评考生的语言能力。复述是口语考试中的一种常见题型,它主要考查的是考生获取关键信息、语言表达和逻辑连贯等方面的能力。复述是MHK四级口语考试的第一种题型,主要用来考查少数民族大学毕业生的语言表达能力。目前,MHK四级复述题采用“2+1”的模式,已实现网上评阅,评分的质量得到了基本保障。但因复试题评阅的时间偏长,评分效率较低,加上评分员的疲劳效应等因素的影响,评分

会议

MHK复述计算机自动评分可行性信度

潜剖面模型的分类精确性:一项蒙特卡罗模拟研究

以结构方程模型为代表的潜变量模型在心理学和社会科学各领域得到了广泛的应用。在传统的结构方程模型中，研究的样本通常假设来自同质性群体，然而这一假设在很多情况下并不成立。不同质群体的结构方程建模可以使用多组分析或多指标多因模型。不过这种处理的前提是存在明确的分组变量，只是更多时候，很难找到客观的外显分组变量，最常见的例子如心理疾病的分类诊断标准。在统计学上，为了处理潜在分组问题，研究者提出了多种统计模

会议

潜剖面Entropy类别距离

表述效应对效标关联效度的影响:一项蒙特卡洛研究

评价测评工具结果的有效性，不能单从结构效度进行，还应评价该工具测得的分数与效标间是否具有某种实证关系，即效标关联效度；操作上，常通过目标结构与效标的相关系数进行评价。学界近年对共同方法变异的关注始于大量研究者发现不同心理变量间由于采用了相同的测量方法，其协方差中会包含共同方法造成的变异，得到有偏的相关系数，研究者可能得出不当乃至错误的结论。

会议

表述效应效标关联效度共同方法变异

MHK(三级)口语开放性试题计算机自动评分的可行性分析及实证研究

主观性试题因其具有较高的效度而广泛用于口语测试当中。目前,口语测试已经实现了网上评阅,评分的效率和质量得到了明显提高。尽管如此,由于题型的自身局限,评分误差大等问题依然没有得到有效解决。随着计算机技术以及测量技术的迅猛发展,实现MHK三级口语开放性试题的计算机自动评分成为了可能。其一,小型化、高性能、高速的服务器以及云计算、人工智能技术的运用为实现自动评阅奠定了坚实的基础；其二,科大讯飞等公司在模

会议

口语开放性试题计算机自动评分可行性分析

图像时代背景下少数民族汉语水平考试口语测验漫画题型的研究

随着互联网的普及和信息化的迅猛发展，当代社会形成了由文字、图像、声音等多种符号互相组合构成的多模态现象，图像以其“一图胜千言”的优势很好地适应了信息爆炸时代人们快速阅读的需求。本文从图像时代的产生背景展开，一方面，以结构主义语言学和认知语言学理论为基础，深入分析图像、文字、语言和人类思维的关系，提出图像和文字一样，作为一种符号和人类的思维密切相关，这种“图像思维”已成为当代人类语言能力的表现之一；

会议

图像时代口试漫画题信度效度

从认知诊断到动态干预的英语听力模型

会议

英语听力认知诊断(CDA)动态干预

小学英语测试中的题目功能差异研究

在省级监测中,如果测试工具对某些团体有利而对另一些团体不利的话,测试工具就缺乏公平性,群体之间的差异比较也就无从谈起。因此,有必要对测试工具进行公平性检测。题目功能差异(differential item functioning,以下简称DIF)从测试工具的最小单位一题目水平上来探讨测试的公平性问题,通过科学、有效的方法检测出测试工具中每一个可能对目标群体的受测者产生不公平对待的题目,从而确保测试

会议

基于Lord偏差校正的CAT在线标定方法

计算机化自适应测验(Computerized Adaptive Testing,CAT)是一种量体裁衣式的新型测验模式.CAT实施的前提是有一个题目参数已经准确标定的题库,而且题库的维护与管理对于CAT的连续使用尤为重要(Chang&Lu,2010).比如CAT实施一段时间后,题库中某些题目可能会因为过度曝光、过时等原因不再适合被继续使用(Wainer&Mislevy, 1990),因此需要开发新

会议

计算机化自适应测验项目反应理论在线标定极大似然估计偏差校正

干扰项信息的纳入对计算机自适应测验评估效果的影响

多项选择题(multiple-choice item)是计算机自适应测验(computerized adaptive testing,CAT)中使用最广泛的题型之一。一道多项选择题通常包括一个正确项和若干个干扰项(distractor)。但在CAT的实际实施和结果分析中,通常只考虑被试是否答对,即把多项选择题当作简单的两点计分的题目处理。这样的处理方式忽略了被试在干扰项上的不同作答,可能造成部分信

会议

多项选择题干扰项信息计算机自适应测验嵌套logit模型

计算机化自适应测验中两种新的在线标定方法

与本文相关的学术论文