基于意群的文本分类方法研究

来源 :北京化工大学 | 被引量 : 2次 | 上传用户:prince262
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是信息检索与数据挖掘领域的研究热点与核心技术,在网页分类、新闻出版的栏目分类、个性化新闻、垃圾邮件过滤、SNS用户分类、微博用户分类等方面有着非常重要的应用,因此对其进行深入的研究具有非常重要的实用价值。本文首先介绍了文本分类技术在国内外的一些研究现状和研究成果;接着探讨了文本分类的相关技术,主要包括文本分类中一些常用的特征选择方法和进行文本分类时使用的一些常用分类算法,对其中每一种算法均进行了深入的研究论证,阐述其中每种方法适用的情况和不适用的情况,同时分析了各种方法的优缺点;然后陈述了意群的概念及其相关方法,论证了通过意群概念及其方法去构建类别词库的可行性,推导出通过类别词库去构建相应的文本分类器,包括基于意群的SVM文本分类器和基于意群的朴素贝叶斯文本分类器,从而可以使用这些分类器对待测文本进行分类;最后是对所提出的方法按详细步骤进行实验,研究结果表明,基于意群的SVM文本分类方法在性能上比普通SVM方法要好,但是基于意群的Bayes方法在性能上并没有朴素Bayes方法好。因此对于基于意群的文本分类方法,若能选用合适的分类算法,则在准确率和召回率上,就能达到比较好的效果。本文在研究了文本分类的一些通用算法的基础上,提出了基于意群的文本分类方法,而且严格论证了该方法的可行性,这在文本分类领域具有一定的推动作用。
其他文献
在虚拟场景中模拟真实世界的水体的运动是目前图形学中最有挑战的课题之一。水体拥有不断变化的运动特性和内在复杂的物理特性,这些特性吸引了大量的图形算法开发人员的注意
自上个世纪中期以来,计算机辅助设计随着经济社会发展需要和电子计算机技术的提高而取得长足进步,相继产生了激光测距扫描仪,深度相机,3D打印机等先进的硬件设备。机械图形产业对
人们日常生活中的大部分信息都与位置相关。近年来,随着无线通信、移动定位、地理信息系统(GIS)等技术的快速发展,在智能交通(ITS)、移动商务等领域,用户往往需要在移动过程中获
学位
中国3G时代的到来给电信运营商全业务的开展提出了更高、更严格的要求,发展新一代运营支撑系统(OSS)成为了运营商决胜的关键因素。随着电信业务的发展,新的运营支撑系统规模巨
聚类分析是数据挖掘领域的一种重要方法,聚类结果的好坏不仅依赖于相似度或者距离的定义,而且数据集中的孤立点也会影响聚类的效果。传统聚类分析是一种无监督的学习,没有先
本文把网络入侵检测系统作为解决计算机网络安全的一种重要手段。经过数据集的数值化和归一化等预处理后,利用特征提取算法对训练数据集的入侵特征进行提取。在此基础上,重点
秘密共享是保护信息和数据的重要手段,它主要用于保护重要信息和数据,以防止重要信息的丢失、毁坏和篡改。秘密共享已经成为密码学研究的一个重要分支,同时也是信息安全方向
关联规则是数据挖掘研究的重要内容之一,从概念上来说,基于某些约束条件挖掘关联规则的方法能减少挖掘过程中的计算量,减小挖掘结果的规模并使其更具针对性,因而具有重要的现实意
在传统Web1.0应用程序中,每个Web站点相互隔离,用户访问Web站点仅能得到来自本站点的信息。在新的Web2.0潮流之下,我们希望打破网站之间的隔离状态进行数据融合使之能够共享信息