受限条件下学生作业文本相似度的研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:kobeantoni198774
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术的研究目标是采用各种技术自动化理解和解释文本信息,这些技术同样也可以用来分析学生作业。传统的NLP系统采用基于规则的推理方法,近年来随着计算机运算能力的提高和海量文本信息的出现,研究人员发现基于文本统计分析的方法更加有效,现在的文本分析方法大多是基于统计学原理的。利用统计学原理分析文本所遇到的第一个问题是如何将文本转换成计算机可处理的数字形式。基本的步骤包括抽词、过滤停用词、确定句子和段落的边界,将文本转换成可以进行统计学分析的向量。文本被转换成向量之后可以利用统计学方法比较文本之间的相似性,或对文本进行聚类或分类。但是文本分析往往比较困难,因为文本向量空间的维度(例如单词的个数)太大,因此如何降低文本向量的纬度非常重要。学生作业文本相似度研究就是要利用目前以有的比较成熟的自然语言处理技术以及文本挖掘的技术和手段对学生作业文本的相似度进行研究,主要用于了解、评价学生作业。本文首先介绍了自然语言处理和文本挖掘出现的背景和发展历史,详细阐述了中文文档分词技术、中文文档特征选择技术、文本相似度计算方法等,并以给定的学生作业为研究对象,在受限条件下对学生作业文本相似度进行了研究。最后通过实验对学生作业文本进行了相似度计算,并对计算结果进行分析和评价,发现学生作业相似度可以体现学生的思维方式、思维特点,可供教师在分析学生学习效果时参考使用。
其他文献
本文对我国企业中员工心理契约的概念、结构、内容以及意义在国内外研究的基础上进行总结和归纳,以实证研究对我国企业员工心理契约状况加以描述,尝试给出自己的心理契约定义
本文介绍了目前流行的四种宽带用户接入方式,重点叙述了电缆调制解调器(CM,Cable Modem)接入的物理层技术,包括:CM接入的组成、技术标准发展、工作机制、CM接入技术优缺点、