论文部分内容阅读
随着计算机技术及Internet的飞速发展,网络已经深入影响到了我们日常生活的每个方面。而各式各样的电子文本已经成为我们获得信息的最主要来源。其庞大繁杂的信息使高效、快捷的获取和管理电子文本信息成为现在重点研究的课题之一。
本文比较系统地介绍了研究文本自动分类的意义和国内外文本分类研究的发展现状,以及文本自动分类在各个领域应用的状况。进一步介绍了文本分类在教育领域的应用现状,分析了学生作业文本分类的重要性和意义。讨论了文本分类的总体框架体系,进行文本分类理论与应用的专门研究。介绍了文本分类算法与聚类算法的类型,对文本分类和聚类的流程的共同和不同之处进行比较,具体讨论了分类、聚类方法的主要代表算法,如贝叶斯分类、KNN分类、SVM方法,以及K均值聚类算法、DBSCAN聚类算法的原理思想、特点和适用范围。
针对文本分类技术在学生作业文本分类这一方向应用空白的现状,本文以数据结构精品课程教学网站为实验平台,设计并实现了一个具有实用价值的应用于教育知识管理中的学生作业分类系统,将自动文本分类应用到教育知识管理领域。学生作业分类,特别是数据结构算法作业和普通的文本分类有所不同,在分词、特征抽取方面都有其领域独特之处。本文针对数据结构的算法作业文本的领域特殊性,详细介绍了分类系统的模型、自动分词方法、以及语法分析处理、文本表示的流程和原理,并结合领域特点选择DBSCAN聚类算法。最后以部分Java代码和学生数据结构算法作业作为实验数据,对系统进行分类实验。
实验表明文本分类应用于数据结构算法作业的分类是成功的,系统还支持扩展到其他语言表述的算法文本分类。结合其他领域的领域知识和特点,完全可以对其他的学科作业进行分类,成为更全面的分类系统。