基于内容的学生作业分类研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:jj1385173
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术及Internet的飞速发展,网络已经深入影响到了我们日常生活的每个方面。而各式各样的电子文本已经成为我们获得信息的最主要来源。其庞大繁杂的信息使高效、快捷的获取和管理电子文本信息成为现在重点研究的课题之一。 本文比较系统地介绍了研究文本自动分类的意义和国内外文本分类研究的发展现状,以及文本自动分类在各个领域应用的状况。进一步介绍了文本分类在教育领域的应用现状,分析了学生作业文本分类的重要性和意义。讨论了文本分类的总体框架体系,进行文本分类理论与应用的专门研究。介绍了文本分类算法与聚类算法的类型,对文本分类和聚类的流程的共同和不同之处进行比较,具体讨论了分类、聚类方法的主要代表算法,如贝叶斯分类、KNN分类、SVM方法,以及K均值聚类算法、DBSCAN聚类算法的原理思想、特点和适用范围。 针对文本分类技术在学生作业文本分类这一方向应用空白的现状,本文以数据结构精品课程教学网站为实验平台,设计并实现了一个具有实用价值的应用于教育知识管理中的学生作业分类系统,将自动文本分类应用到教育知识管理领域。学生作业分类,特别是数据结构算法作业和普通的文本分类有所不同,在分词、特征抽取方面都有其领域独特之处。本文针对数据结构的算法作业文本的领域特殊性,详细介绍了分类系统的模型、自动分词方法、以及语法分析处理、文本表示的流程和原理,并结合领域特点选择DBSCAN聚类算法。最后以部分Java代码和学生数据结构算法作业作为实验数据,对系统进行分类实验。 实验表明文本分类应用于数据结构算法作业的分类是成功的,系统还支持扩展到其他语言表述的算法文本分类。结合其他领域的领域知识和特点,完全可以对其他的学科作业进行分类,成为更全面的分类系统。
其他文献
现有Internet是以IPV4协议为基础的,到目前为止有近30年的历史了。由于Internet的迅猛发展,IPV4的局限性越来越明显,特别是IPV4的地址空间面临即将耗尽的危险。IPV6的出现一劳永
本文对传统的分布式系统架构和目前流行的系统中间件技术进行了详细地研究和对比,深入地分析了它们在系统可重用性、可扩展性和易维护性方面存在的技术缺陷,结合通用分布式系
迁移工作流是基于移动计算范型提出的工作流管理研究的新方向。工作流业务过程根据业务目标的复杂程度被映射为一个或多个迁移实例,迁移实例是工作流的执行主体,每个迁移实例执
Internet的开放性和商业化促使越来越多的局域网络加入到Internet中,当局域网连接到Internet上时,防止非法入侵,确保局域网的安全是至关重要的。最有效的防范措施是在局域网
企业在全球市场取得成功的一个关键因素在于其灵活的商业流程。基于Web服务的SOA架构的概念非常适用于支持这种灵活的商业流程和应用系统。许多企业开始在Internet上通过组合
近年,诸如视频会议、IP电话、VoD等基于Internet的流媒体应用得到了人们的普遍关注。然而,由于互连网资源有限、客户节点众多等特征,造成了服务器负载压力过重,难以为网络客
信息集成可以最大程度的利用已有知识成果,屏蔽数据的半结构性、异构性和分布性,为用户提供统一的模式,实现异构数据源之间的信息交换及从异构数据源中有效获取信息。在信息
优质、清洁、环保的天然气对改善环境大有裨益,它在能源消费中的占比也将越来越大。天然气的需求和消费不断增加,与之相关的供给可靠性也越来越受到大家的重视,而燃气负荷的
随着网络规模的不断扩大以及网络技术的飞速发展,安全性也显得越来越重要。入侵检测在整个安全体系中特别是在动态安全防御体系中有很重要的地位。如今入侵检测技术正在扮演着
网格高度的动态性、自治性、异构性给网格环境下的实体合作提出了严格的要求。如何管理分配异构、分布的资源是网格发展要解决的核心问题之一,一种好的资源调度策略能够充分有