英语口语计算机辅助评分的监控设计及其评分效度和信度研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:amexiao428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机测评系统中评分方式有两种——计算机辅助评分和计算机自动化评分。通过调研和实验测量发现计算机辅助评分在实践应用中存在诸如评分趋中、快速评分等评分缺陷;效度和信度是考试和教育心理测量质量评价的基本要求,自动化评分虽然已经投入实践应用,但其效度、信度是否满足教育测量质量评价的基本要求需实验验证。   本文首先调研分析国内外口语测评系统中评分缺陷,对作者所在单位和科大讯飞联合研发的大学英语视听说智能测试系统的评分缺陷做多维度预估,其次设计教育实验来验证预估并发现新的评分缺陷,同时对参与实验的师生进行访谈调研,依据实验所获得的有效数据与数据分析结果,从评分行为、评分方式和评分时间三个方面设计评分监控,从而提高计算机英语口语测试的效度和信度。再次对系统自动化评分和教育测量理论进行调研分析,设计英语口考试卷并完成实验,通过对实验数据的经典信度分析和经典校标效度分析,验证大学英语视听说智能测试系统实践应用的可行性。   研究结果表明:(1)快速评分现象普遍,实验和师生访谈结果表明以录音时间上下浮动1/4,评分的平均时间和口语答题时间一致。(2)评分持续时间低于3小时,评分过程不存在疲劳评分。(3)拖动滚动条现象伴随大幅度拖动和反复性拖动行为,滚动条的拖动幅度在1/3总时间以内,拖动次数在3次以内。(4)访谈结果表明按比例抽取复评可提高评分效度和信度,两位老师评分的方式需要改进。(5)评分中有参考前题成绩评分、反复性修改成绩、先评分后听录音、不听录音直接评分现象,有多个小题的题型更容易出现该现象,评分量表也需要五分制和十分制两种模式。(6)计算机自动评分中,听力问答题、复述题以及由它们组成的整体信度分析结果均在0.70以上,表明评分者之间信度良好。以计算机辅助评分作校标,朗读题的效度良好,听力问答题和复述题尚不满足实践应用的标准。
其他文献
随着2022年冬奥会的成功申办,以及“三亿人上冰雪”目标的提出,作为冬奥会主办城市的北京市也对其冰雪运动的发展做出了规划,冰球便是一个重要的抓手,少儿冰球培训行业也成为
以玉米为研究对象,通过大田肥效试验,对比研究了史丹利含活化腐植酸第四元素复合肥料与未活化腐植酸肥料在玉米上不同施用效果。结果表明,施用活化腐植酸肥料处理的玉米生物
由解放军报社主办的《军事记者》杂志,是全国新闻核心期刊、全军唯一的新闻学术核心期刊,在军内外新闻界具有广泛的影响。该杂志紧贴时代脉搏、紧贴媒体实践、紧贴业界热点,
营造良好的课堂气氛,能激发学生思维、提高学习效率,并且是培养学生的心理健康和学习兴趣的重要途径。尝试将巧设情境、运用愉快教学、建立激励机制、培养竞争意识、融洽师生
Christopher Brooke和Bruno Basso这对毕业于圣马丁的天才印染专家,已经给我们刮来了数次视觉盛宴。2008年春夏更是打起了“抽象主义”的旗号,将伟大的俄国画家、美术理论家
—、说教材rn(一)教材的地位与作用rn从教材角度看:本节课要学习的主要内容是八年级上册第三章第三节的第三课时,课题为“水资源”之“节约用水,保护水资源”,是在“水是宝贵
2009年,教育部以重大攻关项目的形式批准立项《国民艺术素养教育研究》课题。尝试从理论、历史、现状、比较、实践、资源等方面进行探索国民艺术素养教育的规律,为进一步从国家
期刊
你有每日计划吗?手机中会有某项APP是在帮助完成或者记录每天都必须坚持的一件事吗?持之以恒并非易事,更别提如果这是个颇需创意和脑力激荡的设计工作。澳大利亚的平面设计师Pe
期刊