多层面Rasch模型下人机结合评分的阅卷员效应研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:jihuoxiazai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
1999年,写作测试中开始运用人机结合评分。因一些学者认为作文自动评分系统无法识别作文内容,质疑其评分结果,所以研究者采用诸多方法验证人机结合评分的同质性与异质性。综述相关文献后,未发现用多层面Rasch模型分析人机结合评分中阅卷员效应的研究。依据Myford和Wolfe(2004)的阅卷员效应监测框架,本研究用多层面Rasch模型,从阅卷员群体层面和阅卷员个体层面两个角度,对人机结合评分的总体严厉程度、集中趋势、随机效应、晕轮效应、区分性严厉度进行分析。分析阅卷员个体层面时,将人工阅卷员与爱写作英语写作教学与评阅系统(即爱写作系统)进行比较。本研究主要回答以下三个问题:一、人机结合评分在阅卷员群体层面上是否存在阅卷员效应?二、人机结合评分在阅卷员个体层面上是否存在阅卷员效应?三、人工阅卷员与爱写作系统的阅卷员效应是否存在差异?研究取材于国内唯一采用人机结合评分的大规模写作测试——“外研社杯”全国英语写作大赛,分析了5名人工阅卷员和爱写作系统对初赛中82名参赛者完成的164篇作文的评分结果。各阅卷员在内容、语言、结构三个维度上都先分级,后评分。分级量表依据已有研究改编,包含五个等级;评分量表从外研社官网下载到。以标准差为基本单位,将人工阅卷员、爱写作系统评分的总分也分为五级,并用Facets软件分析内容、语言、结构、总分的所有等级。分析六个多层面Rasch模型的运行结果后发现:一、在阅卷员群体层面上未表现阅卷员效应,表明人机结合评分的整体信度理想。二、在阅卷员个体层面上,5号阅卷员、4号阅卷员各自表现了集中趋势和区分性严厉度,爱写作系统表现了集中趋势。这表明爱写作系统的评分信度较理想,可推广使用,但仍需改进。三、人工阅卷员与爱写作系统的阅卷员效应存在差异,人工阅卷员与爱写作系统的总体严厉程度不同;此外,人工阅卷员表现了区分性严厉度,但爱写作系统并未表现。本研究扩大了阅卷员效应的研究范围,拓展了人机结合评分的研究方法,探索了作文自动评分系统对不同能力参赛者的偏差,验证了作文自动评分系统表现集中趋势的结论。本研究认为在写作大赛、更多的写作测试和写作教学中可推广使用人机结合评分;此外,可将爱写作系统用于低风险写作测试及写作教学中。
其他文献
在久远的石器时代,原始人就有了山水环境的崇拜意识,江苏省连云港的将军崖石刻就如实地反映这一点。那个时候大自然是恐怖的,也是神圣的,在原始人眼中的大自然是不具备美感的
随着我国电力工业的发展和用电量的猛增,断路器在配电和保护线路中起着日益重要的作用。同步开关控制器作为断路器的中枢部件,当前己成为断路器是否先进的重要标志。针对电容
数形结合是将抽象性与形象性结合解决问题的思想方法。研究在小学数学教学中渗透数形结合思想方法意义重大。结合部编版二年级数学教材和二年级学生,对在小学“数与代数”领域中渗透数形结合思想方法进行研究,分析现状及原因,并力图提出有效的教学策略。对部编版二年级教材“数与代数”领域蕴含数形结合思想方法的内容进行分析,通过表格展现单元知识点和数形结合的呈现,从理解整数、建立概念、理解题意、明白算理分析呈现特点。
电动汽车续航里程低是限制其快速发展的关键因素,整车能量流分析成为纯电动汽车提高续航里程指标的重要手段,文章在整车转鼓上对纯电动汽车进行了能量流测试,通过对整车能量
<正>洞天佛地熊猫家园避暑雄山华蓥山位于四川省广安市,风景优雅,生态环境十分优越,以苍翠茂密的山林为环境基调,以世界罕见的喀斯特早期发育石林奇观为典型景观代表,春可赏
期刊
1998年,隔着苏堤六条桥,在西湖第一名园刘庄东面的西湖边上,似出水芙蓉,建起了一座富有民族特色的茶楼——湖畔居。湖畔居得天时、地利、人和,在杭州众多的茶楼中以境幽、情
2000年6月~2003年3月,我科采用输尿管硬镜联合气压弹道碎石机治疗输尿管中下段结石患者78例,效果满意.现报告如下.
以IEC61850标准中GOOSE通信技术为研究对象,论述其技术要点,分析GOOSE通信技术的可用性和应用方法。以合并单元和智能操作性为载体的GOOSE应用研究分析,可为该技术在后期智能