自动作文评阅系统在写作教学中的应用途径

来源 :科技风 | 被引量 : 0次 | 上传用户：flyby

【摘要】

：

【作者】

：

李焱伟封伟

【出处】

：

科技风

【发表日期】

：

2019年29期

【关键词】

：

自动作文评阅人工评阅写作教学

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：自动作文评阅与人工评阅相比在文本识别速度、文本特征统计能力、评分标准执行力度方面都有明显的优势，但是在文本特征识别范围方面有明显的劣势。这些基于自然语言处理技术的评阅系统还不能完全取代人工评阅。因此，我们在写作教学中应该有选择地、灵活地把人工评阅机制和机器自动评阅系统有机的结合起来，让两种评阅机制发挥各自的优势。
　　关键词：自动作文评阅;人工评阅;写作教学
　　1 研究背景
　　近年来，随着人工智能在社会各个领域的发展，自然语言识别技术也逐渐应用在了外语教学领域。其中一个发展迅猛的细分领域就是机器自动评阅系统在外语测试中的研究和应用。这个领域的技术在近20年里已经逐渐成熟，国内外机构研发出了多个作文自动评阅系统，并且这些系统已经在一些大规模外语测试中成为一个辅助的测评工具，甚至在一些测试中已经完全取代人工评阅。
　　针对这些作文自动评阅系统，国内外学者展开了一系列研究。其中国外学者主要关注自动评阅系统的设计原理、效度等问题，而多数国内学者比较关注这些系统和人工评阅的效度对比研究。国内学者普遍认为，作文自动评阅系统在评分效度上接近人工评分，但是并没有在自动评分系统的应用途径做深入的分析。本文认为应该全面评价一下作文自动评阅系统的优劣，并以此为基础探索这些系统在写作教学中的应用途径。
　　2 自动作文评阅系统的优势
　　Williamson（1999）认为机器评阅有五个优点：第一，准确性：自动评阅系统可以精准统计文本的细节特征。第二，客观性：自动评阅系统不会受到情感或者观念的干扰。第三，一致性：自动评阅系统可以保证采用同样的评分标准评阅所有的作文。第四，复现性：自动评阅系统可以在一段时间之后仍然保证采用同样的评分标准。第五，溯源性：由自动评阅系统给出的分数可以得到合理的解释。
　　本文认为这五个优势并非都对外语测试有指导意义，所以我们对这些Willianson的看法做了一些修正。我们认为自动评阅系统的优势主要体现在以下三个方面：第一，从对文本特征的统计能力上看，机器更有优势。目前的自动评阅系统可以精确统计一篇作文里的单词个数、句子长度、重复率、以及各种语言错误的数目，甚至有的系统还可以统计句子之间的衔接手段的使用情况。而人工只能从整体上大概估计以下一篇作文在语言各个层面上的大概情况，然后根据自己的直觉给出评价。第二，从对评分标准的执行力度上看。机器不受其他因素干扰，能做到始终如一。这能确保系统对每篇作文采用的评分标准都是一致的。与之相反，人工评阅作文时，评分人员会受到情感影响，不同的评分人员对于评分标准的理解也有差异，或者在执行这些评分标准时过于偏重于某些标准。第三，从对文本的识别速度上看，机器识别速度更快。这能确保学生及时得到反馈信息。目前的评阅系统不仅可以对一篇文章进行评分，还以从文章结构、衔接连贯、词汇搭配和语法等各个层面上对一篇文章提供评价，甚至标注出一些词汇和语法错误并提出修改意见。这些任务的确也可以被教师完成，但是自动评分系统可以在几秒之内把这些反馈提供给学生，而指导学生数量较多的教师可能需要几天时间才能完成这些批改任务。
　　3 自动作文评阅系统的劣势
　　自动评阅系统一个最大的弊端是系统不能直接理解作文，只能通过一篇作文的表层的相关特征来间接的判断一篇作文的质量。因此，自动评阅系统在识别文本的范围上就有很大的局限性。通常来说，一篇作文里的一些基础特征，比如拼写，标点符号、语法错误、某些词汇搭配都可以被识别。但是，文章的内容扣题程度、连贯和衔接、论点的扩展、修辞手段都不能被系统直接识别。尽管每个系统都通过各种手段来分析作文的篇章或者观点方面的特征，也能针对这些问题为学生提供反馈信息。但是，这些手段都是间接的，并且也不够成熟。比如，Powers（2001）就做了一次实验来挑战e-rater系统的有效性。他们发现，考生如果故意使用一些比较复杂的词汇或者较长的句子就可以取得比较高的分数。我们也做了一些相似的实验测试国内的批改网系统。如果在一篇文章中多加入几个衔接词，系统就会给这篇文章的衔接方面给以较好的评价。
　　此外，即便是在语法和词汇这些基础的文本体征识别方面，自动评阅系统也不能做出完全正确的判断。我们测试了批改网、Iwrite 和Realskill这三个国内自动评阅系统，发现这些系统能较好地识别主谓一致、动词形式等方面的语法错误，但是在比较复杂的语法错误查准率就偏低。在识别词汇使用错误方面表现就更差一些，多数系统只能识别一些比较简单的介词搭配错误，而对于其他词性的搭配错误或者语义错误的识别度很低。虽然说各个系统都声称基于一些大型英语语料库，但是由于一些词汇都是有多个含义，而系统无法识别语境，因此系统还是很难判断大多数词汇使用是否准确。这些劣势都让作文自动评阅系统的效度受到质疑，并且给学生提供的反馈也不是完全可靠。
　　4 利用自动作文评阅系统的方式
　　既然自动作文评阅系统在评阅作文的效率更高、更加客观、反馈更加及时，我们就有必要在写作教学中利用起这个教学工具。但是，我们也要意识到这些系统尽管在不断升级还是不能准确识别一些文本特征。这就意味着我们要充分利用自动作文评阅系统的优势，在一定范围内容使用这些系统代替人工评阅。在一些情况下，作文自动评阅系统只能成为人工评阅的辅助工具。
　　4.1 机器评阅为主
　　在我国大学英语教学中，一个教师通常需要指导上百名甚至数百名学生，在一個学期的写作课程中又需要多次布置写作练习。在这种情况下，教师就很难抽出足够的时间评阅数千篇学生作文。因此，自动评阅系统的优势在这个情况下就可以得到充分的发挥。况且，平时练习的分数至多也就是平时成绩的一部分，所以评分即便有所差错也不会对学生的期末总评产生太大的影响。其次，系统还可以对学生每一次练习的作文提供及时的反馈，这些反馈虽然有一定局限性，但是对学生的语法、词汇和连贯衔接等层面的学习也有一定的指导作用。　　在这个模式中，教师的只需要抽查有异常的评分结果。毕竟，教师对自己的学生的写作水平还是有大概的了解，当发现机器评分和自己预期结果有明显差异时，教师可以通过人工评阅的方式进行检验核实。国内一些作文自动评阅系统也会对一些有抄袭或者机译嫌疑的作文做出标注，教师只需要对这些作文进行人工评阅。教师在这个过程中是一个监督者和质量控制者的角色。这个模式可以极大减轻教师的工作量，又能确保学生得到及时的反馈。
　　4.2 机器评阅占一定比例
　　在这个模式中，机器评分和人工评分可以各占一定的比重，比如，自动评阅系统和评卷人对一篇作文评分后，分别得出一个分数。这两个分数的平均值就是考生的本次写作考试的最终成绩。这种模式是为了发挥自动评阅系统的客观性和一致性的优势，避免人工由于受到情感因素出现的偏差。而加上人工评阅又能确保评分的效度。这个模式适合应用到一些重要的写作测试中，比如，目前的托福考试的写作部分评分就引入了e-rater的评分。在这个评分模式中，人工评分和系统评分一定会有一定的差異。通常来说，都是预先设定一个差值的范围。当人工评出的分数和机器评出的分数差异超出预设的范围时，可以再找另外一个评卷人进行人工评阅。哪两个分数最接近，就取哪两个分数的平均值。目前，国内各种考试都是纸质考试，如果引入机器评分，必须有足够的基于网络考试的考位。因此，考位的匮乏决定了这个模式在目前还不能大规模开展。
　　4.3 机器评阅为辅
　　在第三种模式中，系统和评卷人都需要给每篇作文评分，但是系统评出的分数并不会出现在成绩单里，只是用来确保验证人工评分具有一致性。当系统评出的分数和人工评分的差异超过了预设的范围时，就会找另外一名评阅人来做出裁决。这个模式注重人工评阅的结果，是因为有些写作测试更加看重的是作文的观点是否新颖或者有批判性思维。而这些文本特征是很难被机器识别的。比如，目前在GRE考试中，就采取了这个评分的模式。这个模式不太适用于国内英语写作考试，毕竟国内英语考试主要考查多数英语学习者对英语基本知识的掌握情况，而并不关注观点的新颖或者有独到的见解。
　　5 总结
　　总之，基于自然语言处理技术的自动评阅系统虽然在不断智能化，但是目前还不能完全取代人工评阅的方式。因此，在写作测试和写作教学中，这个自动评阅系统还是应该和人工评阅结合起来。既要发挥系统的优势，又要避免他们的劣势，确保评分结果的客观性、一致性和准确性，也让学习者得到更及时的反馈。
　　参考文献：
　　[1]Williamson，D.M.，Bejar，I.I.，& Hone，A.S.（1999）.Mental model comparison of automated and human scoring.Journal of Educational Measurement，36，158-184.
　　[2]Powers，D.，Burstein，J.，Chodorow，M.，Fowles，M.，& Kulich，K.（2001）.Stumping e-rater：Challenging the validity of automated essay scoring（RR-01-03）.Princeton，NJ：Educational Testing Service.
　　[3]陈冰情，张荔.基于自动作文评阅系统反馈的修改过程研究——以批改网为例[J].当代外语研究，2017，（4）：37-48.
　　资助项目：本文系石家庄学院校级教学改革研究与实践项目“自动作文评阅系统在英语写作教学中的反馈效果研究”的阶段性成果（项目编号：JGXM-201507A）
　　作者简介：李焱伟（1980-），男，硕士，讲师，主要从事于外语教学研究。

其他文献

将实训教学带入车工工艺课程中

摘要：培养和提高学生的实践能力是中职学校的核心教学目标，这也是我校全体职工一直以来研究的重要课题。本文针对中职学校的教学特点和教学理念，将实训教学体系带入到车工工艺课程教学中去，力求提高学生的实操动手能力，改变传统的教学方式，让学生们围绕一个相对独立的项目自己去处理，围绕项目所提出的任务逐渐学会从信息收集、归纳、整理、学习到动手操作，全方面多角度地提升学生专业水平。　　关键词：实训教学;车工工艺

期刊

实训教学车工工艺专业水平

经皮肾镜治疗输尿管上段嵌顿性结石的临床效果分析

目的探讨经皮肾镜治疗输尿管上段嵌顿性结石的临床效果。方法 75例输尿管上段嵌顿性结石患者,随机分为治疗组（38例）与对照组（37例）。治疗组患者给予经皮肾镜治疗,对照组患者给予

期刊

经皮肾镜取石术输尿管上段嵌顿性结石临床疗效

24例男性乳腺发育症的钼靶X线诊断

目的探讨男性乳腺发育症的钼靶X线征象。方法对24例临床检查发现乳房肿块或乳房增大的男性患者行钼靶X线CC位及MLD位摄影,观察乳房外形、乳房发育形态及腋下淋巴结情况。结果

期刊

男性乳腺发育症钼靶X线诊断

探讨CT门静脉造影对食管胃静脉曲张出血的应用价值

目的采用电子计算机断层扫描（CT）门静脉造影技术对食管胃静脉曲张出血的情况进行分析,评估该技术的临床应用价值。方法 50例肝硬化患者,按照食管胃底静脉曲张出血情况将其分为

期刊

电子计算机断层扫描门静脉造影食管胃静脉曲张出血

克拉申的输入假说对大学英语教学的启示

主要讨论了克拉申的监控理论下的输入假说理论，其主要特点及对我国大学英语教学所产生的启示。在实际教学过程中不但要加强可理解性语言输入还要调动学生的学习兴趣，从而取得最

期刊

克拉申监控理论输入假说大学英语教学

中职学生成才“立交桥”的运行障碍及其对策

摘要：中职教育“立交桥”是繁荣职教事业的根本措施，但效果一直不明显。主要原因是，以往的“立交桥”结构不完整，对中职学生缺乏吸引力。增强中等职教“立交桥”效能，应在创造中职生充分升学机会和就业优势方面采取一系列措施。　　关键词：中等职教运行障碍对策　　　　一、背景　　中等职教既肩负着培养数以亿计的高素质劳动者重任，又要为高等职教培养各类高级专门人才提供合格生源，这海量的培养流程和复杂任务，为中等

期刊

中等职教运行障碍对策

应用型本科高校自动化专业教学模式初探

摘要：目前，我国高校自动化专业教育要更新教学模式，注重实践创新能力，才能符合教育理念，全面提升学生的职业素养和就业竞争力。本文针对高校自动化专业教学模式中存在的主要问题，提出实践教学途径和策略的相关思考。　　关键词：应用型本科;自动化专业;教学模式;实践能力　　随着我国经济社会和高等教育的发展，应用型本科教育为了适应新时代的要求应运而生。应用型本科高校自动化专业依托于学科教育，对于培养高层次应用型

期刊

应用型本科自动化专业教学模式实践能力

黄芪桂枝五物汤加减配合艾炙治疗颈椎病的临床研究

目的分析研究黄芪桂枝五物汤加减配合艾炙治疗颈椎病的效果。方法 68例颈椎病患者,利用红蓝球分组法将患者分为对照组及观察组,各34例。对照组接受常规西医治疗,观察组在对照

期刊

颈椎病黄芪桂枝五物汤艾炙Cervical spondylosis Huangqi Guizhi Wuwu decoction Moxibustion

数字化可视人体图像的目标提取

目的探讨数字化可视人体图像的目标提取。方法利用归一化阈值分割排除大部分背景，再结合边缘跟踪对目标边界附近保留的边缘特征进行识别、连接、去噪，构建一种准确、有效的目

期刊

目标提取图像分割薄层断层解剖background removal image segmentation thin sectional anatomy

植物生长调节剂TA乳粉对海带产量和品质的影响

目前我国海带养殖面积约15万hm2,年产干品27万t,占世界海藻总产量的50%。三十烷醇(TA)乳粉可显著提高海带的产量和品质,海带苗经2mg/LTA浸泡2h后放养,能促进假根生长,提高保

期刊

三十烷醇海带植物生长调节剂TA乳粉养殖产量品质triacontanolkelpplant growth regulator

自动作文评阅系统在写作教学中的应用途径

其他学术论文