四、六级考试英语作文自动评分研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:wadfgh1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全国大学生英语四六级网考在教育部的推进下渐渐成形,四六级作文的自动评分成为一个随之出现的新课题。以往四六级作文阅卷采用人工评分,工作量很大,且很难保证评分的准确性和客观性。随着参考人数的增多,这一问题日益突出。因此,迫切需要一种客观、准确、高效的作文自动评分系统来减轻人工评分的工作强度。伴随着四六级网考改革的逐渐展开,如何科学合理地对四、六级英语作文进行评分成为四六级网考实施的主要瓶颈之一。   对于英语作文的评分,一般是从内容和语言两方面来进行的。   作文文本的表示通常采用向量空间模型(Vector Space Model,VSM),但是考虑到不同学生的表达习惯、知识水平各不相同,对同一个概念可能有不同的表达方式,会出现大量的近义词、同义词、多义词,而VSM却假设词间相互独立,所以采用VSM表示作文内容不尽合理,而采用潜在语义分析(Latent Semantic Analyze,LSA)的方法来表示作文内容则克服了上述VSM的局限性。LSA假设文本中存在某种潜在的语义结构,这种潜在的语义结构隐含在文本中词语的上下文使用模式中,可利用统计方法获得,其核心思想是通过奇异值分解将文档向量和词向量投影到一个低维空间,使得相互之间有关联的作文即使没有相同的词也能获得近似的向量表示。本文分别以VSM和LSA作为作文内容评分的模型,进行了比较分析。由对比实验得出的结论是:基于LSA模型得到的对作文内容的机器评分与教师评分具有最小的误差。因为全国大学四六级英语考试这样的大规模考试提供了大量作文集合,从这些大量的作文集合中,采用统计的方法可以计算出哪些单词更能表征作文的内容,从而提取出这些单词作为表征作文内容的特征项。这些特征项在一起构成了表征作文内容的特征向量。   对于作文的语言方面的评分,本文从词汇、语法、句法结构三个角度抽取若干特征来度量作文的语言质量,并采用最新的自然语言处理技术,使获得的评分变量更加合理。对于作文中可能出现的语法错误,解决方法是定义描述常用英语语法错误的XML规则文件,通过将待评分作文文本与错误语法规则的模式一一匹配来检查语法错误,对于句法结构多样性可以通过句法分析器Stanford Parser来提取句子树状结构,提取每个句子中不同种类从句个数、不同词性单词个数等变量作为作文的语言学特征,这些特征相对于以前的系统中的浅层语言评分变量更加具体、更有说服力。   在对作文的评分方面采用了机器学习的方法将教师已评分的部分作文从内容和语言方面分别给出对应的特征向量作为学习样本,从而组成一个样本空间,对待测文本利用KNN(K nearneighbor)算法对作文进行评分。最后对作文内容和语言两方面的得分进行加权求和。
其他文献
学位
Web应用技术在商业、工业、教育等领域所产生的深远影响,使得Web应用测试方法也越来越受到重视。将用户会话数据直接应用于Web测试,使得测试过程与真实数据结合起来,避免了模
传统运动融合仅处理相同角色的运动数据,已有运动数据库无法得到充分复用。为了突破动画角色的骨架结构限制,合成更加丰富多样的运动数据,提出一种面向异构骨架的角色运动融
现在我们处在信息急速爆炸的时代,这时候很难做到为用户提供符合心意的有用信息。因为搜索引擎的出现,用户减少了部分信息过载压力,但存在结果单一性问题,无法提供差异性的可
随着云计算、大数据以及物联网等技术的迅速发展,数据的存在形式发生了变化。在许多实际应用中,产生的数据大多数以数据流的形式存在,如网页搜索日志数据、传感器网络数据、
随着Web服务的流行,Web服务的数量与日俱增,经常会出现多个Web服务满足同一功能请求,对于如何从中选出最优的服务,现有基于功能性描述的Web服务发现方法无法解决这一问题。所
探地雷达(Ground Penetrating Radar,GPR)作为一种高效率、结果直观的浅层物理探测技术,以其无损、高分辨的特点,被广泛应用于环境工程、地质勘探等多个领域。由于地质环境复
我国的煤矿井下供电网大多数采用了小电流接地系统,该系统发生单相接地故障的概率很高。对于井下特殊的工作环境,如果发生了单相接地故障,必须及时地处理,避免故障扩大,影响整个供电系统的安全运行。长期以来,尽管很多学者进行了大量的研究,但是选线准确率达到100%的选线装置还不存在,并且适用于煤矿井下的小电流选线装置几乎没有,因此设计一套经济实用、符合煤矿特殊的供电环境并能快速准确地实现故障选线的装置,具有
随着互联网的快速发展和广泛应用,Web Service已经成为网格和分布式计算基础结构和应用构建的标准,基于Web Service的分布式计算模式也逐渐成为应用模式和软件相关技术发展的
随着互联网的飞速发展,信息爆炸已经成为一个很严峻的问题。面对互联网中海量的信息,想要快速有效地获取所需信息变得越来越困难。如何为用户提供简洁有效的信息、满足用户个