论文部分内容阅读
评分标准类型例如整体评分、分项评分,以及评分者效应例如评分者严厉程度、内在一致性、偏颇性能够影响评分的过程,从而影响根据分数推断写作能力的适切性。本文通过比较整体评分和分项评分,探讨了评分类型以及评分者效应(即,严厉程度、内在一致性、偏颇性)对写作评分过程及其结果的影响。本文结果对评分方法选择,评分者培训,评分执行的启示,有助于英语作文评分的改进。共有四位评分者参加了实验,在评分前,对评分者进行了训练,每个评分者先后在每次评分中,批阅了21篇相同考生的作文。然后,运用社会科学统计软件和多面测量软件对评分结果进行分析。统计分析显示,整体评分中,评分者间无显著相关性,但平均分基本一致;分项评分中,评分者间的相关性较高,但其中一位的平均分和其他人有差异;两次评分的相关性较高,但在平均分上整体评分要比分项评分明显要低很多。多面测量分析显示,在两次评分中,评分者严厉程度都有显著差异,但内在一致性都较高,评分者—考生之间、评分者—评分项之间存在偏颇,且分项评分中更显著。本文可得如下结论:1)分项评分较比整体评分更有助于评分的一致性,在信度上具备优势。尤其当评分者经验不足或类型不同时,为使评分有信度,采用分项评分标准更加合适;(2)在能够保证评分者都是有经验的前提下,在大型测试中,更适合采用整体评分方法;(3)无论采用哪种评分方法,都应该对评分者效应,即严厉程度、内在一致性,偏颇性进行监控,多面测量软件就是有效监控手段之一,其目的在于得到最能反应实际写作能力的可靠分数。