基于机器学习算法的文本分类系统

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:warewell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文先是从机器学习、模式识别、数据挖掘等领域讨论文本分类的应用,研究了文本分类和这些领域之间的联系。然后,详细地介绍了文本分类的各个步骤,包括特征提取和文本分类方面的经典算法以及我们的研究中出现的算法。最后,我们提出了ε-KLD分类算法、基于Lee模型的贝叶斯分类和TFIDF分类,比较了它们的试验性能和优缺点。 新的文本分类算法ε-KLD相对于KLD,它简化了类和文档的特征向量的计算,去掉了过多的参数以及ε的约束条件。它在处理大规模的文档和高维特征空间上的分类精度与KLD相当,比TFIDF要好。同时,计算量比KLD小,运行速度较快,克服了两者的缺点,取得了良好的性能。 我们在Lee模型的基础上将数学期望引入了影响度计算公式,消除影响度在正类和反类训练数据集上的倾斜性,试验结果也表明了改进(或调整)的必要性。随后我们对测试文档的部分读策略进行了研究,其中随机读并没有表现出比全读更好的性能,而启发式的读取策略,却表现了非常高的分类精度。将Lee模型的思想运用于Naive Bayes(NB)分类和TFIDF分类,比较了影响度和TF-IDF两种不同的文档表示方法对分类精度的影响。结果表明,Lee模型的部分读取思想能显著地提高算法的分类精度,影响度的文档表示方法比TF-IDF更好一些。
其他文献
随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工具之一。如何正确处
地理信息系统(GIS)是近年来发展起来的一门综合应用系统,GIS技术能把各种信息同地理位置和有关的视图结合起来,现代信息化技术的飞速发展使得GIS在军用和民用的许多领域中都得
随着计算机技术和网络技术的发展,基于INTERNET的现代远程教育日益成为当今世界教育技术发展的热点和潮流。目前,作为教学中的一个重要组成部分—实验教学,还不能在远程教育
近年来,随着在线社交网络的迅猛发展,网络稳定性已经成为一个备受关注的研究课题。在社交网络中普遍存在一种“网络坍塌”现象:用户会因为其好友的离开而离开这个网络,并进而
随着嵌入式设备越来越广泛,基于实时多任务微内核的嵌入式实时操作系统也得到越来越多的应用。因此研究一种实时多任务微内核,提高它的实时性和性能是很有必要的。本文以目前广
本文在研究客户端/服务器和对等网两种应用模式结构特点的基础上,分析了目前流行的采用客户端/服务器模式的流媒体服务的局限性,阐述了当前流媒体技术在对等网上的应用情况和相关
本文首先针对课题的要求,考虑到嵌入式系统的图形用户界面的轻型、占用资源少、高性能、高可靠性、可配置等特点,提出了系统的总体设计方案。分别对硬件和软件子系统的各个功能
形体求交是几何造型领域最为重要也是最为复杂的问题之一。被广泛应用于曲面裁剪、数控加工以及实体造型拼合等各种运算中。求交问题是计算几何的一个重要研究方向。也是计算
编码机会路由(NCOR)结合了机会路由(OR)与网络编码(NC)的优势,利用多径传输与网络编码技术缓解了无线链路丢包率高的问题,是提高无线Mesh网络吞吐率和可靠性的传输方案。由于编
随机行走(random walk)理论产生于19世纪,经过近2个世纪的发展,在化学、地理、仿真学以及经济学等领域都有着广泛的应用。20世纪末,Aharonov等人将随机行走理论扩展到了量子力学