论文部分内容阅读
写作作为语言考试的一种必备题型,通常需要大规模的作文阅卷,采用人工评分的方法一方面浪费大量的人力、物力,另一方面,人工评分依赖阅卷老师的主观判断,存在一定误差。随着自然语言处理技术的发展,其在句法分析,语义分析、情感分析等方面取得了突破性的进展,利用自然语言处理技术对作文进行自动评分具有重要的意义。传统的自动作文评分方法主要对整篇文章进行统计,提取词法、句法、语义等特征,代入机器学习模型中进行训练,从而预测评分,这种方法通常依赖于人工提取的规则特征,并且只简单的考虑篇章整体质量,没有很好的考虑到其中更细节的信息,比如篇章的上下文信息等。基于这些问题,本文在传统评分方法上,进一步抽取句子层面的特征,并利用篇章的上下文的时序信息,挖掘作文潜在的逻辑性、连贯性对评分模型的影响。另外,针对语言考试中规定题目的写作情景,从考察作文是否符合题意角度出发,研究了作文主题相关度在评分模型中的效果。本文的研究内容主要包括以下三个方面:(1)研究了句表示方法和深度学习模型在自动作文评分中的应用。在写作这个特定情境下,作文更适合看作具备逻辑性的语句序列,为了挖掘句子之间隐藏的逻辑信息,本文主要使用无监督的方法表示句向量,其中包括Doc2Vec技术、递归自编码器等。然后使用深度学习方法构建模型,本文主要基于CNN模型在提取特征上的优势和LSTM模型适合时序性问题的特点,设计并实现了多种模型结构,找到适合该问题的建模方法。并与传统评分模型进行融合,使评分模型效果得到提升。(2)研究了说明文体裁作文的主题相关度在评分问题中的作用。主要通过提取题目文本与作文文本之间的相似度特征,并引入基于主题的语义离散度的概念,分析其对最终评分结果的影响。(3)设计并实现了一个作文自动评分系统。该系统能够对作文质量给出及时的评分反馈,并且在词法、句法、逻辑、主题角度给出相关的反馈。并增加了纠错模块,可以一定程度上提供给用户更好的写作反馈体验。