评分员信度LONGFORD方法计算和实验研究

论文部分内容阅读

本文有两个内容。一是介绍一种评分员信度的计算方法——LONGFORD方法。该方法以概化理论和方差分量分析为理论基础，可以估计出真分数、评分员严厉度和误差的方差，并可以考察每个评分员的评分情况以及给同一个被试评分的每一对评分员的评分情况，因而能够较全面地对主观测试评分的质量进行评估。我们根据模型要求，组织了一次评分。12名评分员采用5分量表给HSK(高等)340份作文答卷评分，每一份作文由两个不同的评分员独立地评出分数，然后用LONGFORD方法对评分信度进行评估。二是对同一批作文的两次评分——评分员间一致性较高的评分(简称为RH，rating of higher inter-rater reliability)和评分员间一致性较低的评分(简称为RL，rating of lower inter-rater reliability)——用LONGFORD方法进行比较，为将评分员信度理解为主观测试信度寻找经验证据。根据罗德和诺维克的理论，RH和RL之间应有在τ-等价关系，τ-等价的测量具有相同的真分数，相同的样本期望值。只有证明了RH和RL之间存在τ-等价关系，我们才可以说RH是在同一个测度上比RL更精确的测量。实验得到的结果是矛盾的。平均数差异的显著性检验表明，这两次评分的平均数差异基本不显著，部分地证实了RL和RH之间是τ-等价关系。我们用LONGFORD方法估计出这两次评分的方差，然后进行方差差异的显著性检验。结果是，RL和RH的方差总和差异不显著，这表明RH不能减少方差总量；RL和RH的真分数方差差异显著(RH＞RL)，误差方差差异显著(RH＜RL)，表明RL和RH之间不存在τ-等价关系。虽然RH的误差较小，但RH和RL可能是对不同测度的测量，二者测到的可能是不同的东西。评分员信度问题，还需要进一步的研究和认识。

其他学术论文