论文部分内容阅读
【摘 要】群体水平直接估计法作为一种全新的IRT群体估计方法,即能克服CTT在群体估计的困难,又能有效改善IRT对群体的估计。目前应用有困难,但却是一种值得引起广泛关注的新方法。
【关键词】群体水平直接估计法;IRT
一、研究背景
伴随着我国基础教育的发展,全面提高教育质量成为我国教育改革与发展的核心任务。《国家中长期教育改革和发展规划纲要(2010~2020年)》中提到:“国运兴衰,系于教育”。我国基础教育在实现义务教育发展阶段后,在基础教育质量评价、检测和监控的研究及实践方面已进入了新的发展阶段(耿申,2011)。当前我国尚未开展针对整体学生发展的地区性大型评估,缺乏有效方法是重要原因。目前已开始深入研究PISA、TIMSS、NAEP、TASA和PIRIS等国际大型测试,努力探索出适合我国国情的教育质量监控体系和方法。
二、含义与现状
群体水平评估是指针对由一定数量个人所组成的单位、团体组织进行的评估(蔡艳,丁树良,涂冬波,戴海琦,2012)。过去衡量学生、教师、学校的教育发展水平大多依据学校升学率和学生成绩(吴志华,王红艳,王晓丹,2011),多建立在经典测验理论(Classical Test Theory,CTT)基础上。但群体人数会直接影响群体估计(Tate & King,1994),而且在大型评估中,评估工具往往较大题量构成,远大于学生一次测试能够接受的题量,这个矛盾常出现在实际工作中。而另一种项目反应理论(Item Response Theory,IRT)可以克服这一困难。IRT的估计也受到样本大小的影响。很多研究结果也表明:运用IRT对测验结果进行分析时,若将群体人数控制在一定范围内,不需要大量试题也能保证估计的精确度(吴国华,1990)。基于IRT作群体评估时,获得考生的个体领域分数后将组内个体的个体领域分数平均,以此获得该组个体的群体领域分数,即平均所有个体在各题上的P( )值作为群体能力的指标。该方法类似CTT的求均值,会受到群体数量和题数的影响。还有另一种方法,先获得群体内个体在各题的正确作答概率,利用正确作答概率估计出群体水平,又称为群体水平直接估计法。蔡艳(2010)使用该方法英语阅读问题解决能力评估及认知诊断,仅用20题,且每题10人作答,每人答一题。
三、问题与展望
近年来国际大型考试的题量多少直接体现在预定的测试时间。PIRLS2006研究团队认为,需要近7个小时才能完整测试一名学生在两种不同阅读目的下所进行的阅读活动,但鉴于实际情况,PIRLS将测试时间规定为80分钟;NAEP对学生答题时间精确至每一道题,两种形式的阅读评价试卷总耗时均为50分钟(杨清,2012);PISA测验有若干个试题册,每名学生样本只要求作答其中的一套,测验题量一直保持在130题以上(苏洪雨,2008)。在心理健康评定使用较多各类心理健康量表里,SCL-90有90个项目;由王极盛主编的《中国中学生心理素质量表》有50个项目(王极盛,1997);《大学生人格健康调查量表》(UPI)有56个计分项。辛涛(辛涛,谢敏,2010,2011)研究表明,实践中当总题量确定时,为了较精确地估计群体领域分数,每个题本中的项目数≥25较为合适;在保证精确性的前提下节约编题成本,每个题本的题数不可超过60;从编题成本和估计精确性角度考虑,题本项目数在30左右较为合适,最好不低于30(“基础教育教学质量监测系统”项目组,2009)。在题量会大于20的实际工作中,群体水平直接估计法效果如何还有待探索。
现有研究也表明题量、项目难度和区分度、群体大小、群体内个体能力分布会影响群体水平能力估计的精确性和稳定性以及群体能力认知诊断。作为一种全新且有效的方法,虽在实际工作普遍应用还有距离。经过一段探索和发展,相信它会有助于我国教育事业的进步。
参考文献
[1]“基础教育教学质量监测系统”项目组.IRT下题量与被试量对参数估计模拟返真性能的影响[J].中国考试(研究版).2009(6):3~10
[2]Tate,R.L.,King,F..Factors Which Influence Precision of School‐Level IRT Ability Estimates[J].Journal of Educational Measurement.1994,31(1):1~15
[3]蔡艳,丁树良,涂冬波,戴海琦.群体水平IRT模型及其应用——兼与IRT的比较[J].心理科学.2012,35(006):1497~1501
[4]耿申.基础教育质量监控:回归“质”的评价——中国教育学会基础教育评价专业委员会2011年专题研讨会述评[J].中小学管理.2011(6):20~25
[5]苏洪雨.PISA:数学素养测试题的设计和研发过程[J].教学与管理.2008(5):49~51
[6]王极盛.中国中学生心理素质量表的编制及其标准化[J].社会心理科学.1997(4):21~25
[7]吴国华.样组大小和测验长度对于考生能力估计的影响[J].南京师大学报(社会科学版).1990(1):106~108
[8]吴志华,王红艳,王晓丹.大规模教育评估的兴起,问题与发展——加拿大教育评估的启示[J].外国中小学教育.2011,(8)002
【关键词】群体水平直接估计法;IRT
一、研究背景
伴随着我国基础教育的发展,全面提高教育质量成为我国教育改革与发展的核心任务。《国家中长期教育改革和发展规划纲要(2010~2020年)》中提到:“国运兴衰,系于教育”。我国基础教育在实现义务教育发展阶段后,在基础教育质量评价、检测和监控的研究及实践方面已进入了新的发展阶段(耿申,2011)。当前我国尚未开展针对整体学生发展的地区性大型评估,缺乏有效方法是重要原因。目前已开始深入研究PISA、TIMSS、NAEP、TASA和PIRIS等国际大型测试,努力探索出适合我国国情的教育质量监控体系和方法。
二、含义与现状
群体水平评估是指针对由一定数量个人所组成的单位、团体组织进行的评估(蔡艳,丁树良,涂冬波,戴海琦,2012)。过去衡量学生、教师、学校的教育发展水平大多依据学校升学率和学生成绩(吴志华,王红艳,王晓丹,2011),多建立在经典测验理论(Classical Test Theory,CTT)基础上。但群体人数会直接影响群体估计(Tate & King,1994),而且在大型评估中,评估工具往往较大题量构成,远大于学生一次测试能够接受的题量,这个矛盾常出现在实际工作中。而另一种项目反应理论(Item Response Theory,IRT)可以克服这一困难。IRT的估计也受到样本大小的影响。很多研究结果也表明:运用IRT对测验结果进行分析时,若将群体人数控制在一定范围内,不需要大量试题也能保证估计的精确度(吴国华,1990)。基于IRT作群体评估时,获得考生的个体领域分数后将组内个体的个体领域分数平均,以此获得该组个体的群体领域分数,即平均所有个体在各题上的P( )值作为群体能力的指标。该方法类似CTT的求均值,会受到群体数量和题数的影响。还有另一种方法,先获得群体内个体在各题的正确作答概率,利用正确作答概率估计出群体水平,又称为群体水平直接估计法。蔡艳(2010)使用该方法英语阅读问题解决能力评估及认知诊断,仅用20题,且每题10人作答,每人答一题。
三、问题与展望
近年来国际大型考试的题量多少直接体现在预定的测试时间。PIRLS2006研究团队认为,需要近7个小时才能完整测试一名学生在两种不同阅读目的下所进行的阅读活动,但鉴于实际情况,PIRLS将测试时间规定为80分钟;NAEP对学生答题时间精确至每一道题,两种形式的阅读评价试卷总耗时均为50分钟(杨清,2012);PISA测验有若干个试题册,每名学生样本只要求作答其中的一套,测验题量一直保持在130题以上(苏洪雨,2008)。在心理健康评定使用较多各类心理健康量表里,SCL-90有90个项目;由王极盛主编的《中国中学生心理素质量表》有50个项目(王极盛,1997);《大学生人格健康调查量表》(UPI)有56个计分项。辛涛(辛涛,谢敏,2010,2011)研究表明,实践中当总题量确定时,为了较精确地估计群体领域分数,每个题本中的项目数≥25较为合适;在保证精确性的前提下节约编题成本,每个题本的题数不可超过60;从编题成本和估计精确性角度考虑,题本项目数在30左右较为合适,最好不低于30(“基础教育教学质量监测系统”项目组,2009)。在题量会大于20的实际工作中,群体水平直接估计法效果如何还有待探索。
现有研究也表明题量、项目难度和区分度、群体大小、群体内个体能力分布会影响群体水平能力估计的精确性和稳定性以及群体能力认知诊断。作为一种全新且有效的方法,虽在实际工作普遍应用还有距离。经过一段探索和发展,相信它会有助于我国教育事业的进步。
参考文献
[1]“基础教育教学质量监测系统”项目组.IRT下题量与被试量对参数估计模拟返真性能的影响[J].中国考试(研究版).2009(6):3~10
[2]Tate,R.L.,King,F..Factors Which Influence Precision of School‐Level IRT Ability Estimates[J].Journal of Educational Measurement.1994,31(1):1~15
[3]蔡艳,丁树良,涂冬波,戴海琦.群体水平IRT模型及其应用——兼与IRT的比较[J].心理科学.2012,35(006):1497~1501
[4]耿申.基础教育质量监控:回归“质”的评价——中国教育学会基础教育评价专业委员会2011年专题研讨会述评[J].中小学管理.2011(6):20~25
[5]苏洪雨.PISA:数学素养测试题的设计和研发过程[J].教学与管理.2008(5):49~51
[6]王极盛.中国中学生心理素质量表的编制及其标准化[J].社会心理科学.1997(4):21~25
[7]吴国华.样组大小和测验长度对于考生能力估计的影响[J].南京师大学报(社会科学版).1990(1):106~108
[8]吴志华,王红艳,王晓丹.大规模教育评估的兴起,问题与发展——加拿大教育评估的启示[J].外国中小学教育.2011,(8)002