基于粗糙集的启发式属性约简特征选择方法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:fisher9527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来互联网技术的日趋成熟和应用范围的不断扩大,以文本形式存在的网络资源开始与日俱增。面对海量的信息,人们出现了“信息迷失的现象”,将海量信息根据内容进行归类成为了必然的选择。自从1957年美国的H.P.Luhn首次展开对自动分类的研究以来,文本分类正在赢得越来越多研究人员的关注,关于文本分类的研究成果层出不穷,并已经被成功地应用于搜索引擎、信息过滤、数字图书馆、邮件分类等领域。作为文本分类的重要环节,特征选择对文本分类起着至关重要的作用。因此,如何利用高效的特征选择方法降低文本特征集维度,已经成为文本分类研究领域中一个重要的研究课题。本文在经典粗糙集理论的基础上,首先分析了粗糙集理论在特征降维方面的优势,给出了运用粗糙集理论进行特征选择的可行性分析。然后针对目前基于粗糙集的特征选择方法在处理不一致决策表、时间复杂度等问题上的不足,本文提出了基于粗糙集的启发式属性约简特征选择算法,并将其应用到特征选择中,不仅大大提高了文本分类的效率,同时也为特征选择研究增添了新的研究内容。最后在研究了改进的特征选择算法的基础上,通过与传统特征选取方法实验对比,表明该算法在不一致决策表中能较好地进行特征降维,获得较好的分类结果。结合粗糙集理论,本文讨论了文本分类特征选择中存在的问题,并对启发式属性约简特征选择进行了深入地研究,本文主要工作如下:1讨论了选题的研究意义,阐述了粗糙集理论的基本概念,研究了影响文本分类的重要因素,分析了常见的文本分类特征选择方法的特点,详细介绍了当前基于粗糙集的特征选择方法;2为了寻求更为高效的特征选择方法进行特征降维,本文在概述了基于粗糙集的文本分类基础上,尝试把粗糙集中的启发式属性约简算法引入特征选择中。在一致决策表中,本文在传统基于粗糙集的正域约简特征选择方法基础上,提出了启发式正域约简特征选择方法,用于特征降维;针对决策表不一致现象,本文引入粒度函数来度量不同属性集之间的差异,并给出了基于粒度函数的启发式属性约简特征选择算法,为文本分类特征选择提供了新的研究方向;3通过对实验语料进行实验,本文验证了生成决策分类规则的有效性。实验发现,该算法不仅能较好地降低文本特征项集的维数,还能较好地改善分类的效率。实验结果表明将基于粗糙集的启发式属性约简方法应用到特征选择中是切实可行的。最后,本文对基于粗糙集的文本分类特征选择研究进行了总结,并对研究中某些尚待完善的地方,提出几点设想以供下一步研究。
其他文献
随着科学技术的进步,机器人学得到了长足的发展,机器人可以将人类从繁重的重复劳动中解脱出来,从工业领域到大众生活,机器人发挥着越来越重要的作用。路径规划是机器人学的核
目前,大多数人体行为识别问题的研究聚集在视频数据上,而基于视频数据的行为识别方法容易侵犯个人隐私,同时由于视频图像数据的复杂性造成识别准确度不高。随着物联网技术的
随着网络应用的飞速发展,在享受电脑办公和互联网络带来的速度和效率的同时,局域网内普遍存在着网络资源滥用的严重问题,因此获得网络流量的分布情况并对异常流进行处理变的
对湖北省0-6岁“贫困残疾儿童康复工程”的实际需求和当前信息管理系统的特征,提出了建立一个基于Web的分布式康复工程信息系统的设计方案,使各级残联机构及康复机构用户利用
随着计算机计算和存储能力的提高,其中的视频监控技术已经得到长足的发展,特别是3G网络的兴起,使得用户可以随时随地的进行远程监控,进一步扩大了视频监控的应用领域。然而,
电能已经成为国民经济和社会发展的基础性资源,随着工农业生产的发展,人们对供电质量提出了更高的要求。电压暂降是最严重的电能质量问题,其发生频繁,影响广泛,严重影响了电网中敏感用电设备的正常运行,造成了巨大的经济损失甚至人员伤亡电压暂降已成为电能质量投诉的主要原因,是国内外电工领域的研究热点。本文从电压暂降对于敏感负荷运行特性的影响、暂降源识别、暂降源定位三个方面对电压暂降展开了研究。本文首先介绍了电
近年来,随着计算机技术的快速发展,通过计算机进行面部表情识别在和谐人机交互及情感机器人等方面有着广泛应用,人脸表情识别逐渐成为一个研究热点。人脸表情识别是指利用计
车载无线自组织网络(Vehicular Ad Hoc Network, VANET),是一种应用于交通领域的、动态变化的无线自组织网络(Ad Hoc Network)。它作为未来智能交通系统的一部分,通过车辆间
随着网络规模的进一步扩大和网络软硬件设施的日益复杂,人们对网络管理系统的需求也变得越来越迫切,正确快速的网络拓扑信息能直接有效地为网络管理员提供整体性的网络结构和
随着经济全球化和知识经济时代的到来,市场竞争日益激烈,企业要想更好更快地发展,就必须在增加市场份额的同时力争达到成本最小化,而在企业成本中,库存成本和运输成本占了很