论文部分内容阅读
计算机测评系统中评分方式有两种——计算机辅助评分和计算机自动化评分。通过调研和实验测量发现计算机辅助评分在实践应用中存在诸如评分趋中、快速评分等评分缺陷;效度和信度是考试和教育心理测量质量评价的基本要求,自动化评分虽然已经投入实践应用,但其效度、信度是否满足教育测量质量评价的基本要求需实验验证。
本文首先调研分析国内外口语测评系统中评分缺陷,对作者所在单位和科大讯飞联合研发的大学英语视听说智能测试系统的评分缺陷做多维度预估,其次设计教育实验来验证预估并发现新的评分缺陷,同时对参与实验的师生进行访谈调研,依据实验所获得的有效数据与数据分析结果,从评分行为、评分方式和评分时间三个方面设计评分监控,从而提高计算机英语口语测试的效度和信度。再次对系统自动化评分和教育测量理论进行调研分析,设计英语口考试卷并完成实验,通过对实验数据的经典信度分析和经典校标效度分析,验证大学英语视听说智能测试系统实践应用的可行性。
研究结果表明:(1)快速评分现象普遍,实验和师生访谈结果表明以录音时间上下浮动1/4,评分的平均时间和口语答题时间一致。(2)评分持续时间低于3小时,评分过程不存在疲劳评分。(3)拖动滚动条现象伴随大幅度拖动和反复性拖动行为,滚动条的拖动幅度在1/3总时间以内,拖动次数在3次以内。(4)访谈结果表明按比例抽取复评可提高评分效度和信度,两位老师评分的方式需要改进。(5)评分中有参考前题成绩评分、反复性修改成绩、先评分后听录音、不听录音直接评分现象,有多个小题的题型更容易出现该现象,评分量表也需要五分制和十分制两种模式。(6)计算机自动评分中,听力问答题、复述题以及由它们组成的整体信度分析结果均在0.70以上,表明评分者之间信度良好。以计算机辅助评分作校标,朗读题的效度良好,听力问答题和复述题尚不满足实践应用的标准。