论文部分内容阅读
在语文教育中,作文能力是评价学生语言水平的重要指标。自动作文评分不仅能够在考试测评领域对人工评阅的客观性和公正性提供技术支撑,而且能够辅助提升个人作文能力,具有重要的理论价值和应用价值。自动作文评分仍面临许多挑战。首先,虽然不同专家根据要求能够对作文评判一致,但是目前仍缺乏可量化的作文评分规则。其次,语言作为一种符号化体系,具有更高的灵活性,自然语言的处理相较于结构化数据的处理更为困难,过程缺乏可解释性。最后,考虑到语料库的标注问题,现存的大部分作文评分工作专注于对作文给出一个整体得分,缺少对作文细粒度评分的标注。词汇是作文的基础组成部分和重要评分依据,从词汇角度量化作文水平并融入到模型中是十分有必要的。针对上述问题,本文从词汇语用方面入手,提出了基于专家知识的可解释作文评级方法。本文贡献如下:(1)提出了基于专家评阅规范的中文作文词汇可量化评估框架,对语料库作文词汇水平进行标注。为了从词汇这一角度提升模型的可解释性,本文研究了高考作文评分标准和多个分等级词汇库,分析了初等教育小学和中学作文语料库,形成了基于专家知识和统计分析的分级词汇表。在此基础上,分析了在语言认知过程中作文词汇水平的变化,提出了可计算性作文词汇水平评价规则,并使用该评价规则对语料库中作文每条句子的词汇水平进行标注。(2)研究了基于深度神经网络的可解释作文评级方法。为了挖掘作文词汇、句子之间语义关系,对作文文本进行建模,采用基于词向量的双向长短时记忆网络模型,用于生成作文表示向量并给出作文评级。本文分别在模型的词汇和句子层面融入注意力机制,提取出作文中的高分句子,提出了一种可解释方法,从作文词汇水平方面解释了模型。同时,针对无意义高级词汇堆砌样本,为了增加模型的鲁棒性,本文分别从模型和数据两个方面对鲁棒性进行了分析,增加了对句法通顺度的检测。(3)在真实作文语料库上验证了模型性能。针对中小学作文语料库,验证了模型在作文评级任务上的性能,与其他相关工作相比,本文模型与人工评阅结果的一致性更高,并且具有更高的可解释性。针对特定考试,本文对模型进行调整,适配于某省成人高考作文考试中,实验证明模型可以在特定考试中给出较准确的作文评分。