对群体水平直接估计法的探讨

来源 :企业导报 | 被引量 : 0次 | 上传用户：oikikukka

【摘要】

：

【作者】

：

徐晶颖　杨修齐　张琳钰

【出处】

：

企业导报

【发表日期】

：

2013年11期

【关键词】

：

群体水平直接估计法 IRT

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　【摘要】群体水平直接估计法作为一种全新的IRT群体估计方法，即能克服CTT在群体估计的困难，又能有效改善IRT对群体的估计。目前应用有困难，但却是一种值得引起广泛关注的新方法。
　　【关键词】群体水平直接估计法；IRT
　　一、研究背景
　　伴随着我国基础教育的发展，全面提高教育质量成为我国教育改革与发展的核心任务。《国家中长期教育改革和发展规划纲要（2010～2020年）》中提到：“国运兴衰，系于教育”。我国基础教育在实现义务教育发展阶段后，在基础教育质量评价、检测和监控的研究及实践方面已进入了新的发展阶段（耿申，2011）。当前我国尚未开展针对整体学生发展的地区性大型评估，缺乏有效方法是重要原因。目前已开始深入研究PISA、TIMSS、NAEP、TASA和PIRIS等国际大型测试，努力探索出适合我国国情的教育质量监控体系和方法。
　　二、含义与现状
　　群体水平评估是指针对由一定数量个人所组成的单位、团体组织进行的评估（蔡艳，丁树良，涂冬波，戴海琦，2012）。过去衡量学生、教师、学校的教育发展水平大多依据学校升学率和学生成绩（吴志华，王红艳，王晓丹，2011），多建立在经典测验理论（Classical Test Theory，CTT）基础上。但群体人数会直接影响群体估计（Tate & King，1994），而且在大型评估中，评估工具往往较大题量构成，远大于学生一次测试能够接受的题量，这个矛盾常出现在实际工作中。而另一种项目反应理论（Item Response Theory，IRT）可以克服这一困难。IRT的估计也受到样本大小的影响。很多研究结果也表明：运用IRT对测验结果进行分析时，若将群体人数控制在一定范围内，不需要大量试题也能保证估计的精确度（吴国华，1990）。基于IRT作群体评估时，获得考生的个体领域分数后将组内个体的个体领域分数平均，以此获得该组个体的群体领域分数，即平均所有个体在各题上的P（）值作为群体能力的指标。该方法类似CTT的求均值，会受到群体数量和题数的影响。还有另一种方法，先获得群体内个体在各题的正确作答概率，利用正确作答概率估计出群体水平，又称为群体水平直接估计法。蔡艳（2010）使用该方法英语阅读问题解决能力评估及认知诊断，仅用20题，且每题10人作答，每人答一题。
　　三、问题与展望
　　近年来国际大型考试的题量多少直接体现在预定的测试时间。PIRLS2006研究团队认为，需要近7个小时才能完整测试一名学生在两种不同阅读目的下所进行的阅读活动，但鉴于实际情况，PIRLS将测试时间规定为80分钟；NAEP对学生答题时间精确至每一道题，两种形式的阅读评价试卷总耗时均为50分钟（杨清，2012）；PISA测验有若干个试题册，每名学生样本只要求作答其中的一套，测验题量一直保持在130题以上（苏洪雨，2008）。在心理健康评定使用较多各类心理健康量表里，SCL-90有90个项目；由王极盛主编的《中国中学生心理素质量表》有50个项目（王极盛，1997）；《大学生人格健康调查量表》（UPI）有56个计分项。辛涛（辛涛，谢敏，2010，2011）研究表明，实践中当总题量确定时，为了较精确地估计群体领域分数，每个题本中的项目数≥25较为合适；在保证精确性的前提下节约编题成本，每个题本的题数不可超过60；从编题成本和估计精确性角度考虑，题本项目数在30左右较为合适，最好不低于30（“基础教育教学质量监测系统”项目组，2009）。在题量会大于20的实际工作中，群体水平直接估计法效果如何还有待探索。
　　现有研究也表明题量、项目难度和区分度、群体大小、群体内个体能力分布会影响群体水平能力估计的精确性和稳定性以及群体能力认知诊断。作为一种全新且有效的方法，虽在实际工作普遍应用还有距离。经过一段探索和发展，相信它会有助于我国教育事业的进步。
　　参考文献
　　[1]“基础教育教学质量监测系统”项目组.IRT下题量与被试量对参数估计模拟返真性能的影响[J].中国考试（研究版）.2009（6）：3～10
　　[2]Tate，R.L.，King，F..Factors Which Influence Precision of School‐Level IRT Ability Estimates[J].Journal of Educational Measurement.1994，31（1）：1～15
　　[3]蔡艳，丁树良，涂冬波，戴海琦.群体水平IRT模型及其应用——兼与IRT的比较[J].心理科学.2012，35（006）：1497～1501
　　[4]耿申.基础教育质量监控：回归“质”的评价——中国教育学会基础教育评价专业委员会2011年专题研讨会述评[J].中小学管理.2011（6）：20～25
　　[5]苏洪雨.PISA：数学素养测试题的设计和研发过程[J].教学与管理.2008（5）：49～51
　　[6]王极盛.中国中学生心理素质量表的编制及其标准化[J].社会心理科学.1997（4）：21～25
　　[7]吴国华.样组大小和测验长度对于考生能力估计的影响[J].南京师大学报（社会科学版）.1990（1）：106～108
　　[8]吴志华，王红艳，王晓丹.大规模教育评估的兴起，问题与发展——加拿大教育评估的启示[J].外国中小学教育.2011，（8）002

其他文献

疤痕子宫足月妊娠自然分娩的临床护理分析

【摘要】目的：分析疤痕子宫足月妊娠自然分娩的临床护理措施和护理效果。方法：选取2015年5月至2016年5月来我院分娩的98例疤痕子宫足月妊娠产妇作为研究对象，随机分成观察组和对照组，每组各49例，对照组实施常规护理，观察组在常规护理基础上采用综合护理干预措施，观察两组护理的临床效果。结果：观察组产妇分娩成功、产后出血以及新生儿窒息情况明显优于对照组，两组对比差异明显（P0.05），具有可比性

期刊

疤痕子宫足月妊娠自然分娩临床护理

CT引导下经皮穿刺活检术在骨骼病变诊断中的应用

目的探讨CT导引下肝细胞生长因子(HGF)基因治疗脑缺血的可行性.方法采用基因重组技术构建携带HGF基因的真核表达质粒,通过脂质体介导法,在CT灌注扫描图像定位下将其多点注

期刊

肝细胞生长因子脑缺血基因治疗

记忆中的婚丧民俗——以山西忻州地区为例

近代以来中国社会发生了巨大的变革,并经历了两次大规模的移风易俗运动,农村地区的很多婚丧旧习被破除,但民间风俗习惯又具有相当大的稳定性和传承性,另一方面随着社会经济的

期刊

风俗婚丧嫁娶传统

孙中山统一祖国的思想实践及其传承

孙中山在中国处于分裂状态的20世纪初,始终将谋求祖国的统一作为头等大事.他关于国家统一的思想,含有统一的趋势、性质、内涵与方式等内容,强调并坚信祖国必须统一和一定能够

期刊

孙中山辛亥革命国家统一台湾问题

加压空心螺钉内固定与人工髋关节置换术治疗老年股骨颈骨折的疗效比较

目的:分析加压空心螺钉内固定与人工髋关节置换术治疗老年股骨颈骨折的疗效.方法:以随机的方式选取参与本次调查的病例,本次调查病例共选取62例.根据随机抽签的方式将参与本

期刊

股骨骨折内固定

基层水电企业管理模式探讨

集团公司“总部‘抓总’、区域‘做实’、基层‘强基’”的三级管控模式已全面实行,同时为适应现代企业精简管理需要,基层水电企业管理模式值得深思,突出发挥基层水电企业特

期刊

三级水电企业管理模式探讨

本刊对论文中计量单位及数字的要求

计量单位执行GB3100～3102－1993《量和单位》中有关量、单位和符号的规定及其书写规则。注意单位名称与单位符号不可混用。组合单位符号中，斜线不能多于1条，如ng／kg／min应采用ng ·

期刊

论文法定计量单位数字用法单位符号数值书写规则量和单位换算系数单位名称出版物阿拉伯组合叙述偏差计数混用公历分数

道德理论发展简述

随心理学研究的领域逐渐扩展和深入，其中有关社会道德的研究逐渐成为国内外心理学研究的一大热点（麻晓磊，2009）。现有的道德认知理论由儿童、青少年的道德形成发展历程角度出发，是道德理论领域发展较为成熟，地位较高的组成部分，主要阐述个体自儿童时期起至成年期间道德认识发展的一般规律，定义内涵主要包括将对社会意义上的行为准则及执行准则的意义。皮亚杰多次强调了儿童的道德发展是从他律道德阶段逐渐向自律道德阶段

期刊

洪泽县2008-2012年流行性腮腺炎疫情分析

目的分析洪泽县流行性腮腺炎疫情,为制定防治策略和措施提供科学依据。方法对2008—2012年发生的流行性腮腺炎病例进行描述性分析。结果 2008—2012年洪泽县报告流行性腮腺炎

期刊

流行性腮腺炎疫情流行病学特征

牢固树立生态文明理念的几点认识

我国生态建设取得了巨大成就,但从整体看,中国仍然是一个缺林少绿、生态脆弱的国家.目前,全国森林覆盖率 21.66%,不及世界 30%的平均水平,沙化土地面积超过国土面积的1/5,水

期刊

对群体水平直接估计法的探讨

与本文相关的学术论文