论文部分内容阅读
测试是教育评价中一种广泛采用的方法。近几十年来,随着计算机技术和网络技术的快速发展,教育评价也出现了新的实现方式,即把计算机作为测试工具应用到教育评价中。采用计算机进行测试主要有两种形式:基于计算机的测试(CBT)和计算机自适应测试(CAT)。前者以经典测试理论为基础,利用计算机对测试进行管理和评分,通常也被称之为计算机化固定测试。此外,越来越多的测试都已采用网络作为平台,因此也被称为基于网络的测试(IBT)。与纸笔测试(PPT)相同,实施CBT也是对所有的被试展示相同数目、相同顺序的试题,很少或者没有注意到被试个体的能力差异。与CBT不同,CAT的基本思想是模仿人类的智能评估行为,通过计算机选择适合每个被试能力水平的测试项目,并统计其在项目上的反应,达到对被试能力水平更精确估计的目的。通过这种更加灵活的测试形式解决了传统测试中存在的问题,避免了被试被迫要回答大量太难或太简单的项目。理论与实践均表明,当选择的项目适应被试的能力水平时,被试的积极性最高,测验的信度和效果也最好。因此,CAT可以真正做到“因人施测”。与传统的PPT或者CBT相比,CAT的优点包括:1)对被试知识水平的估计更加精确;2)显著降低测试长度和测试时间,使得测试更加高效;3)提高被试的学习动机;4)最重要的是,采用CAT进行评价可以更好的适应每个被试的真实能力水平,评价更加公平,获得的分数也更加合理。在国外,对CAT的研究得到了长足的进步,被广泛应用于多个领域。而在国内,对CAT的研究起步比较晚。因此,对其研究具有重要理论价值和现实意义。本文以CAT中存在的问题以及解决这些问题涉及的技术为研究目标,研究工作主要包括以下几个方面:(1)通过对考试的发展历程、CAT的基本理论、心理学基础和基本组成要素等进行了介绍,并对目前国内外的研究现状进行了梳理、分析和总结;(2)对项目反应理论涉及的基本假设进行了深入的分析。针对该理论在项目反应时间上关注的不足,本研究中提出了项目反应时间假设,并把项目反应时间因素作为参数加入到了项目反应模型中,提出了Logistic-T模型,并从理论上对该模型进行了推导和证明,达到对被试进行科学评价的目的;(3)论述了计算机自适应测试中项目参数维护的必要性,以及目前广泛采用的修正方法实施的困难,提出了根据项目使用信息对项目难度参数进行修正的b-CBUI方法;(4)对目前主要的项目选择方法进行了介绍与对比分析,指出了应用中存在的问题。在此基础上提出了新的项目选择方法,在保证测试精度的同时,对项目曝光进行控制以及达到内容平衡。与此同时,为了提升项目选择的效率,采用了模拟退火算法对目标函数进行求解,形成了TIS-SA项目选择方法,取得了比较好的效果;(5)最后,通过计算机自适应测试原型系统CAT-GD,对本文所提出的基于Logistic-T项目反应模型的能力估计方法、项目修正方法b-CBUI和TIS-SA项目选择方法等关键技术进行实验研究。通过实验结果对本文所提出的方法进行了对比分析和完善。