论文部分内容阅读
语言运用测试经常出现于大规模高风险考试中。测试之后,便由不同的评分员对考生的语言表现作出评价。因为这些考试结果对于考生来说至关重要,所以非常有必要确保不同评分员评分的信度和效度是一致的,这正是本研究的目的。在本研究中,10位教师评分员(大学英语教师)和10位非教师评分员(英语相关专业的研一学生)对30位考生的口语故事复述进行评价。他们不仅对他们评分,而且还要对其中的6位考生给出评分理据。通过这些数据对比分析两组评分员在评分上、给理据上是否存在差异。数据分析从两个互补的方面进行:定量分析和定性分析。定量分析包括信度分析,t-检验和FACETS分析。结果显示,在内部一致性方面,两组没有存在显著差异:在每一组10个评分员中,都有9个评分员的评分在可接受的上限下限范围之内(1.40—0.60)。而在严厉度方面,虽然从评分上看教师评分员给分比非教师评分员低一点(42.70vs.42.73),但t-检验结果、及FACETS的分析结果显示在严厉度方面两组不存在显著差异。定性分析显示两组评分员在给分时关注的评价标准是相似的,他们最关注的是内容,然后依次是语言、流畅性和语音语调。不同的是在于他们怎样作出评价:老师评分员的评价比较具体,而非教师评分员的评价比较笼统。基于以上发现,我们的结论是非教师评分员的评分和教师评分员的评分一样可信、有效。这证明邀请非教师评分员参加评价一些像广东高考口语故事复述这样的大规模高风险考试是合理、可行的。