认知诊断评价中测验属性界定及诊断模型开发研究

来源 :江西师范大学 | 被引量 : 12次 | 上传用户:lxkef
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
认知诊断评价是一种新兴的测验形式,它可以根据被试在具有诊断功能的项目上的作答推断其潜在的知识状态。因此,相对于传统形式的测验,认知诊断评价对被试的学习、教师的教学、教学质量的考核和教学资源的分配等能提供更多的参考信息。认知诊断评价已经引起社会的广泛关注,我国的国家中长期教育发展规划纲要(2010-2020)中就明确提到要“注重因材施教,关注学生不同特点和个性差异,发展每一个学生的优势潜能,……,改革教育质量评价和人才评价制度”,要想施行因材施教,就必须深入了解学生的不同特点和个性差异,了解学生在知识掌握上的优势和不足,而这正是认知诊断评价的优势所在。要想实行认知诊断评价,有许多关键的问题需要解决。本文从实际应用的角度出发,主要关注其中的三个问题,围绕核心研究对象“属性”,为促进诊断测验的应用和大规模实施而展开。第一个问题是项目属性向量的定义(或称项目属性向量的界定),它包括两部分内容:对已界定项目的属性向量的验证和对未界定项目的属性向量的定义,通常情况下,这两部分内容主要是通过学科专家、测量专家等根据知识或经验共同界定;第二个问题是属性的粒度对于认知诊断评价的影响;第三个问题是认知诊断模型的开发与使用。对于第一个问题,目前主要使用的还是主观定义的方法,容易受到专家知识和个人经验的影响,经常会出现不同专家所界定的结果不一致,多个专家之间会出现争议的情况。比如,著名的“分数减法”(Tatsuoka,1983)数据,直到今天,其属性界定和Q矩阵界定仍然存在争议。De Carlo(2011,2012)也提到,认知诊断评价中的属性定义是一件非常困难的事情,项目属性的界定过程容易出现属性不确定或错误的情况;对于第二和第三个问题,也都是围绕“属性”而展开,共同来促进认知诊断评价的实际应用。本文中的三个问题之间是相互关联的,第一个问题得不到很好的解决,就导致第二和第三个问题也得不到很好的解决,项目属性向量的定义会涉及到属性粒度的选择,认知诊断模型的选择需要基于测验属性及其关系的定义,因此就有可能会出现诊断模型误用的情况。正是基于认知诊断评价中存在的这些问题的理解和认识,结合目前国内外的研究现状,本文从实际应用的角度,开展了四项研究。研究一:基于统计量的Q矩阵估计算法的改进,它包括3个部分的内容。(1)Liu,Xu和Ying在2012年提出了基于作答数据的Q矩阵推导方法,在模拟研究下,该方法有很高的Q矩阵估计成功率,是一种客观的推导Q矩阵的方法。由于Liu等的方法中有较多的假设,限制了该方法在实际中的使用,考虑解除部分假设,实行Q矩阵,项目参数的联合估计;进一步,解除Liu等在方法中把被试总体分布当做已知的假设,实行Q矩阵,项目参数和被试总体分布的联合估计。(2)第(1)个研究中,需要以一个较好的“初始Q矩阵”(即专家事先界定的Q矩阵中只包含少量的错误)作为基础,但在实际的应用中,有时未必能满足,因此,本研究基于少部分被正确界定的项目,实行Q矩阵、项目参数的在线估计;进一步,实行Q矩阵、项目参数和被试总体分布的在线估计。相对于(1),(2)的优势是不需要以一个较好的Q矩阵作为基础,这在实际应用中特别适合于题库的建设,可以通过已界定的项目对需要入库的新项目进行界定,它能同时估计项目的参数和属性向量,并且能保证所有项目的参数处在相同的量尺上。(3)目前大多关于认知诊断评价的研究都假定测验的属性个数定义正确,但是实际上,这在实际应用中也很容易出错,比如对于著名的“分数减法数据”,研究者们就分别按8个属性和5个属性进行分析过。本研究考察Q矩阵缺少一个必需的属性或多余一个额外的属性时,Q矩阵估计算法的表现。无论事先界定的Q矩阵的质量是好还是坏,(1)或(2)可以很好的解决,一方面,可以对新项目的属性进行界定,另一方面也可以对已界定的项目的属性进行验证。但是(1)和(2)存在的问题是算法中采用的统计量涉及到的计算量很大,特别是当属性个数、项目个数较大时,算法可能无法在短时间内输出结果。因此,研究二构建了新的Q矩阵统计量,使得Q矩阵的估计可以在较短的时间内完成,并且有较高的估计成功率。研究二:受项目反应理论中的项目拟合统计量似然比2的启发,构建了认知诊断框架下的项目属性拟合统计量2,它不但可以实行Q矩阵、项目参数的联合估计,而且可以实行Q矩阵、项目参数的在线估计。相对于研究一,基于2的Q矩阵估计方法可以在更短的时间内完成,对样本的要求更低,并且有很高的估计成功率,另外2统计量的一个突出的优点是不需要事先确定被试的属性掌握模式分布。研究三:属性的粒度会影响到测验蓝图的设计,进一步会影响诊断测验的分类准确率和分类效率。本研究主要考察属性粒度和属性间不同程度的相关对于被试分类的影响,研究了测验采用较“粗”粒度的Q矩阵和较“细”粒度的Q矩阵时,对被试的模式判准率、属性的平均判准率等的影响,为实际应用中选择Q矩阵提供参考。研究四:由于在实际的应用中,属性之间的关系是非常难于界定的,而目前已有的认知诊断模型大多基于属性间的某种特定关系构建的。因此,当选用的模型与属性间的实际关系不符时,就会出现模型和数据的拟合较差,降低诊断测验的分类准确率和测验结果提供的参考价值。本研究通过增加一个可以描述项目的属性间关系的参数,将项目属性间的补偿关系所导致的作答效应纳入到模型中,使得模型有更好的适应性。新构建的模型不但可以处理项目的属性间是非补偿作用的情况,而且可以处理完全补偿、部分补偿的情况。并且更重要的是,在实际应用中,不需要事先确定属性间的关系,通过模型参数就可以了解项目属性间的关系以及大小。相对于已有的模型,新模型在不同类型的测验数据中,有更好的适应性。
其他文献
介绍了如何利用Micaps数据服务器对T639全球模式06UTC和18UTC(世界时)进行本地化,有效解决了使用中国气象局数值预报中心在2012年4月1日下发的T639全球模式解码程序操作步骤处理
自媒体时代的到来,使人们获取信息的渠道更加畅通,传播信息的速度和方式更加快捷,自媒体正以其特有的方式改变着人们的价值观和生活方式。中职学生正处于世界观、人生观、价值观形成的关键阶段,在享受自媒体带给他们的新鲜感和乐趣的同时,也正遭受着自媒体这把双刃剑带给他们的不良影响,自媒体中的各种负面信息严重影响中职学生正确世界观和价值观的建立。中职学生在使用自媒体平台进行信息传播的过程中也涌现出许多问题,他们
静脉留置针又称套管针,其作为头皮针的换代产品,随着医学科学的迅速发展,已逐渐成为临床输液治疗的主要工具。特别是在小儿L科,避免了反复穿刺给患者带来的痛苦和恐惧,也有利于血
本研究探索了工作记忆(WM)个体差异的神经电生理指标,以及珠心算(AMC)对于WM的训练效应及其神经机制。研究采用多种实验范式,并结合事件相关电位(ERP)和事件相关同步化/去同
<正>深化纪检监察体制改革,是一项长期而艰巨的政治任务。本次全会工作报告在任务部署第三项,以"创新纪检监察体制机制"为着力点,以"切实把制度优势转化为治理效能"为要求,对
推行政府向社会组织购买助残服务是创新公共服务提供方式、加快残疾人服务业发展的重要途径。上海市在近年来的探索中,遵循“试点先行-基层突破-总结经验-形成制度”的改革路
长江源区河流的河网形态和辫状河型独具特色。基于SRTM3 DEM、Landsat 4-5 TM遥感影像和Google Earth卫星影像数据提取长江源区22条河流纵剖面,利用简单数学函数拟合纵剖面形
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
我国农村残疾人社会保障与服务体系(以下为两个体系)建设取得了很大成就,绝大多数残疾人基本生活得到了切实保障,基本服务需求也能够得到一定程度的满足。但由于我国长期形成
目的探究对晚期肺癌患者实施循证护理后,对疼痛护理效果及生活质量的影响。方法本次研究对象是2017年7月至2018年7月在我院救治的42例晚期肺癌患者,利用信封抽签法随机分组,