论文部分内容阅读
随着信息技术的不断发展,信息获取能力的不断提高,人们往往需要分析和处理各种高维数据,如:海量web数据、遥感图像、微阵列数据等等。这些高维数据通常会导致机器学习算法的计算量成指数倍增长,引发“维数灾难”问题,因此对于高维数据的特征选择问题已成为数据挖掘领域的一个重要课题。通过特征选择技术将高维数据对象从高维特征空间映射到低维特征空间,这些低维特征更能体现出数据对象的本质含义,同时又能提高数据分析处理的效率。本文以微阵列数据为例作为实验数据,对高维数据的特征选择方法的理论思想和实际应用进行了深入研究和探讨。主要工作包括以下几个方面: 提出了一种基于特征相似性的特征选择算法,首先使用局部标准化信噪比方法剔除无关特征,然后对剩余特征进行聚类,并将簇中特征数较少的簇当做噪音特征剔除,噪音特征剔除之后,会得到七个簇,其中簇内特征相互冗余度较高,而簇间特征相互冗余度较低,然后根据本文提出的评价标准,依次对每个簇中的每个特征进行评价,并决定是否剔除,将最终剩下的特征集合到一起,并按照单独分类能力的大小进行排序。实验表明,算法可以很好的剔除无关特征、噪音特征和冗余特征。 分析基于特征相似性的特征选择算法和Top-r特征选择算法各自的优缺点,然后将这两种特征选择算法结合起来,取长补短,使得结合后的新算法不仅可以充分考虑不同特征组合带来的分类优势,同时又能保证算法的执行效率较高。新算法首先将特征集合进行删减,得到一个无关特征和冗余特征较少的特征子集;然后将该特征子集中相互冗余的特征划分到不同块中,相互不冗余的特征划分到同一块中;最后对特征块执行Top-r方法,选择最优的特征组合。实验表明,新算法不仅可以选择出较好的特征组合,又能保证算法的执行效率较高。