文本分类中基于综合度量特征选择算法的研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:wzgncsyj1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是一个传统而又历久弥新的话题,在互联网技术日益发达的今天,其应用越来越广泛。在文本分类的过程中,由于用特征向量表示文本时的高维性、高稀疏度等特点,特征选择显得特别重要。在研究文本分类时,发现词频特征选择忽略了特征的类内重要度和类间分散度,而x~2统计量特征选择只考虑了特征的类内重要度。针对词频和x~2统计量两种特征选择算法的不足,提出了三种基于综合度量的特征选择算法:基于平衡因子的词频特征选择、基于平衡因子的x~2统计量特征选择以及基于过滤器的x~2统计量特征选择。改进的前两种算法通过引入权重平衡因子,将特征的类内重要度和类间分散度线性组合起来,通过调节权重平衡因子来调整类内重要度和类间分散度在特征评分中的贡献度,有效地解决了词频和x~2统计量两种特征选择算法的不足。基于过滤器的x~2统计量特征选择在传统的x~2统计量特征选择的结果集上,用类间分散度进行过滤,剔除类间分散度小于给定阈值的特征,从而得到效果更优的特征子集。设计并实现了包含多项式朴素贝叶斯、支持向量机和k最近邻三种分类器的文本分类系统,用于对改进的三种特征选择算法进行试验和验证。最终实验结果表明:这三种特征选择算法具有较好的普适性,是可行的、有效的。
其他文献
本研究从理论上对医学生职业素质综合评价问题作了科学性思考,提出了发展性的评价观及其应遵循的六个“统一”的原则。 本研究通过查阅相关资料、抽样调查、统计分析等方法
随着网络技术的迅速发展和J2EE平台的广泛应用,基于B/S的多层Web体系结构逐渐发展成为Web应用开发的主流。但仍然存在程序可重用程度低、维护工作繁琐等不足,因此,如何组织应用程
计算机技术的快速发展将人类社会带入了信息化时代,随着计算机网络技术和通信技术的相互融合,出现了以这两项技术为基础的一个全新的领域---计算机支持的协同工作(Computer S
遥感技术在环境监测、国土资源勘探、军事侦察以及考古等许多领域中发挥着越来越重要作用。而航空遥感以其特有的机动灵活和反应快速的特性,在应对各种突发事件以及各种灾害的
分布式文件系统自上世纪70年代出现以来,经过30多年的发展,已经逐渐趋向成熟,在数据处理、信息服务、商业系统、教育科研等各个领域都有广泛的应用。分布式并行文件系统(DPFS
近年来,随着计算机技术的飞速发展,嵌入式系统的应用越来越广泛。随着对嵌入式系统的要求越来越高,嵌入式系统的图形用户界面(Graphic USer Interface)对于嵌入式系统来说就
近几年来,基于角色的访问控制RBAC(Role-Base Access Control)作为访问控制的一个领域得到了迅速发展。其基本思想是通过角色来实现用户与权限之间的逻辑隔离,从而简化对访问
在大数据时代,数据流编程语言相对传统的面向对象的编程语言有着明显的优势,但是在任务调度优化的过程中,要得到负载均衡的划分结果并非易事。特别是在多媒体领域,数据流程序
网络编码(NC)自问世以来便受到广大学者的青睐。通过改变传统网络中路由的存储—转发模式,把编码的观念加入到中继节点中。采用这种策略,我们能够实现网络容量最大的目的。由于
随着信息技术的飞速发展,决策人员在进行决策分析时对各方面信息和数据的依赖性越来越强,于是在数据库的基础上产生了满足决策分析所需要的数据环境—数据仓库。在构建数据仓库