文本分类的属性选择与多标记转换方法研究

来源 :北京交通大学 | 被引量 : 7次 | 上传用户:weilijay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展和普及,文本信息呈现爆炸式增长趋势.海量的文本信息使人们迫切需要文本分类技术来节约人力与财力,提高分类效率.因此,文本分类技术成为一项目趋重要的研究课题.本文的研究目的是提升文本分类的效果.为了实现这个研究目的,本文从属性选择及多标记转换方法两个方面展开了深入的研究,取得了一些研究成果.首先,本文对文本分类问题所涉及到的分词处理、特征表示、特征提取、分类算法、性能评价等5个相关步骤进行了技术上的综述,并通过系统设计与实现阐述了文本分类的整个过程.在此研究基础上,对属性选择和多标记指派模型分别展开了深入的研究.其次,对于属性选择问题,通过研究和实验指出了现有属性选择算法的不足,利用限制文档分布率过滤了高频噪声词,并提出了将词频与文档频率相结合的综合评价策略.基于文档频率、信息增益、互信息、χ2估计法等属性选择方法,利用所提出的综合评价策略进行了改进,通过对比实验分别验证了使用所改进的4种属性选择方法比原始方法可以获得更好的分类效果.第三,多标记分类是文本分类领域中重要与复杂的问题.本文深入研究了多标记文本分类建模和学习方式,并对各种多标记转换方法进行了分析与比较,针对它们存在的问题,提出了一种基于标记分布的多标记指派模型.其不仅保证了指派模型不丢弃有价值的训练样本,而且能够较好地平衡各个类别样本的权重.通过对比实验,验证了利用改进后的多标记指派模型比目前已有的5种指派模型可以获得更好的分类效果.实验表明,利用本文提出的词频与文档频率相结合的综合评价策略以及多标记指派模型,可以有效提高文本分类的精度.这些研究成果可以用于大规模的文本分类,达到提高文本分类效果的目的.
其他文献
纹理分析是图像理解、分析与识别中的重要研究内容,在模式识别领域和计算机视觉领域中有着非常广泛的应用前景。纹理分析的主要研究内容为纹理描述、纹理分割、纹理分类、纹
随着云计算、物联网、社交媒体和社交网络等信息技术的快速发展,数据量正在以前所未有的速度增长。因此,如何高效地通过压缩技术减少数据存储量和提高存储效率显得尤为重要。
当前,对复杂网络的研究已经成为一个新兴的研究热点。复杂网络与现实世界有着密切的联系,例如:社会关系网,交通网络,蛋白质网络,通信网等都构成一个复杂的网络。如何通过对复杂网络
在智能交通系统中智能识别技术得到了越来越广泛的应用。而车型识别技术是智能交通系统中智能识别技术重要组成部分,在路桥收费系统中它能对在特定地点和时间的车辆进行识别
农业是国民经济的基础,长期以来我国农村盲目施肥,过量施肥现象很普遍。不仅造成农业生产成本的增加,而且带来严重的环境污染,威胁了农产品的质量安全等一系列问题。鉴于现行的农
随着构件重用技术和分布式技术的发展,面向服务的体系结构(Service-Oriented Architecture, SOA)成为一种新的分布式应用程序体系结构,以Web服务及其组合为核心的服务计算模
如今室内定位已成为人们研究重点技术之一,由于室内定位受到噪声、多径反射、温度、非视距等环境因素的影响,大大降低了室内定位的精确度。为了解决上述问题,首先,对基于接收
信息技术的不断发展使得人们的信息交换变得越来越容易,通信的手段也越来越多,作为互联网应用的网络电话,便是其中之一。并且随着互联网技术的不断进步,网络电话技术的不断完
人脸识别作为生物特征识别的一个重要分支,一直是模式识别和图像处理领域的研究热点之一。本文主要研究了基于几何特征的三维人脸识别方法。首先通过双目立体视觉技术获取了
随着社会的快速发展,各种车辆越来越多,道路安全形势越来越严峻,如何提高道路安全,是摆在各国研究者面前的难题。车辆自组织网络能够实现车辆间的通信,使驾驶者准确而及时的