基于Tor-r方法的特征选择算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:haisangpiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,信息获取能力的不断提高,人们往往需要分析和处理各种高维数据,如:海量web数据、遥感图像、微阵列数据等等。这些高维数据通常会导致机器学习算法的计算量成指数倍增长,引发“维数灾难”问题,因此对于高维数据的特征选择问题已成为数据挖掘领域的一个重要课题。通过特征选择技术将高维数据对象从高维特征空间映射到低维特征空间,这些低维特征更能体现出数据对象的本质含义,同时又能提高数据分析处理的效率。本文以微阵列数据为例作为实验数据,对高维数据的特征选择方法的理论思想和实际应用进行了深入研究和探讨。主要工作包括以下几个方面:  提出了一种基于特征相似性的特征选择算法,首先使用局部标准化信噪比方法剔除无关特征,然后对剩余特征进行聚类,并将簇中特征数较少的簇当做噪音特征剔除,噪音特征剔除之后,会得到七个簇,其中簇内特征相互冗余度较高,而簇间特征相互冗余度较低,然后根据本文提出的评价标准,依次对每个簇中的每个特征进行评价,并决定是否剔除,将最终剩下的特征集合到一起,并按照单独分类能力的大小进行排序。实验表明,算法可以很好的剔除无关特征、噪音特征和冗余特征。  分析基于特征相似性的特征选择算法和Top-r特征选择算法各自的优缺点,然后将这两种特征选择算法结合起来,取长补短,使得结合后的新算法不仅可以充分考虑不同特征组合带来的分类优势,同时又能保证算法的执行效率较高。新算法首先将特征集合进行删减,得到一个无关特征和冗余特征较少的特征子集;然后将该特征子集中相互冗余的特征划分到不同块中,相互不冗余的特征划分到同一块中;最后对特征块执行Top-r方法,选择最优的特征组合。实验表明,新算法不仅可以选择出较好的特征组合,又能保证算法的执行效率较高。
其他文献
随着信息化的普及,人们的工作和学习已经离不开网络信息。同时,随着网络信息规模的不断扩大,如何高效、准确地获取相关的中文信息逐渐成为人们关注的问题。中文分词是中文信
随着对极化SAR (Synthetic Aperture Radar)图像分类研究的深入,近年来许多监督和非监督分类方法被相继提出。早期的极化SAR图像分类算法是基于其统计特性的。之后,物理散射
“眼球追”技术为研究现实生活中人们从事具体事务时如何处理视觉信息提供了一个独特的视角。该技术被有效应用于诸多学科中,如计算机科学、神经学、实验心理学等,用来量化研究
近年来数据库技术发展迅速,随着各类数据库被广泛的应用到企业、政府、科研机构等各个领域中,网络信息的规模呈现出大爆炸的趋势,人们对于这种大量的数据的分析和处理的能力
人脸识别(FaceRecognition)属于模式识别领域的重要课题之一,在门禁系统、安防系统、考勤系统、刑事案件侦破等领域都已有广泛的应用。随着社会的进步,科技的发展,人们在享受办
伴随着计算机的发展,计算机的运行速度在不断提升,但是尺寸却变得越来愈小,而近几年更是在往小型移动设备方向不断发展。正是由于PC设备的不断完善以及移动设备的快速发展,普通用
模式匹配是计算机应用领域重要的研究方向之一,广泛应用于入侵检测、信息检索、生物科学等方面。随着计算机网络技术的飞速发展,信息量呈爆炸式增长,如何提高模式匹配算法的性能
乳腺癌是全世界女性最常见的恶性肿瘤之一,且其发病率和死亡率在近年呈现迅速增长的趋势,早期的发现与确诊是降低乳腺癌死亡率的关键,也是早期诊断的关键。其中,肿块是乳腺疾
图像的边缘细节信息直接影响图像的视觉质量。传统的超分辨算法会出现边缘模糊和锯齿等现象,本课题分析了国内外的成果,把张量能保持图像局部结构信息的特征引入到超分辨中,根据
无线传感器网络(Wireless Sensor Network-WSN)作为物联网的“末梢神经”,是一种综合数据感知与采集、融合处理和信息传输功能于一体的无线自组织智能群体型网络信息系统,其