论文部分内容阅读
自然语言处理技术的研究目标是采用各种技术自动化理解和解释文本信息,这些技术同样也可以用来分析学生作业。传统的NLP系统采用基于规则的推理方法,近年来随着计算机运算能力的提高和海量文本信息的出现,研究人员发现基于文本统计分析的方法更加有效,现在的文本分析方法大多是基于统计学原理的。利用统计学原理分析文本所遇到的第一个问题是如何将文本转换成计算机可处理的数字形式。基本的步骤包括抽词、过滤停用词、确定句子和段落的边界,将文本转换成可以进行统计学分析的向量。文本被转换成向量之后可以利用统计学方法比较文本之间的相似性,或对文本进行聚类或分类。但是文本分析往往比较困难,因为文本向量空间的维度(例如单词的个数)太大,因此如何降低文本向量的纬度非常重要。学生作业文本相似度研究就是要利用目前以有的比较成熟的自然语言处理技术以及文本挖掘的技术和手段对学生作业文本的相似度进行研究,主要用于了解、评价学生作业。本文首先介绍了自然语言处理和文本挖掘出现的背景和发展历史,详细阐述了中文文档分词技术、中文文档特征选择技术、文本相似度计算方法等,并以给定的学生作业为研究对象,在受限条件下对学生作业文本相似度进行了研究。最后通过实验对学生作业文本进行了相似度计算,并对计算结果进行分析和评价,发现学生作业相似度可以体现学生的思维方式、思维特点,可供教师在分析学生学习效果时参考使用。