论文部分内容阅读
近年来,随着信息采集技术和数据处理能力的迅速发展和广泛应用,众多领域如科学研究、生物医学、网络通信、商业等出现了大量高维数据,因而对高维数据进行分类成为数据挖掘领域的研究热点。由于“维度效应”的原因,许多在低维数据空间中表现良好的分类方法,运用于高维数据集时,因过高的计算复杂度等因素导致分类效果不理想,因此,构建面向高维数据集的有效分类算法成为数据挖掘领域的重点和难点问题。本文针对高维数据分类问题进行了以下研究:(1)讨论高维数据及其分类方法,并分析了传统分类方法及其在面向高维数据分类算法的不足。(2)引入了一种适用于高维数据的EP模式分类算法,详细介绍了EP模式,挖掘方法及分类器。在此基础上概述了EP模式分类器的性能,探讨了EP模式分类器应用在高维数据上会产生过多的EP模式的问题及对分类精度的影响。(3)针对EP模式分类器应用在高维数据分类时,因存在冗余及无关特征而导致产生大量冗余及无关EP模式这一问题,将特征选择方法融入于EP模式分类算法中,通过特征选择去除高维数据中的冗余及无关特征,从而去除EP模式中的冗余及无关EP模式,由此而提出两种分别适用于连续型数据及离散型数据的分类算法,即基于Lasso的EP模式分类算法和基于因果关系的EP模式分类算法(其中,Lasso是一种基于线性统计回归模型的特征选择方法)。(4)针对基于线性回归的lasso特征选择应用于超高维数据时可能会出现计算量过大及过拟合问题,提出两种改进的lasso特征选择方法:ILasso特征选择及ELasso特征选择。实验表明了所提算法的有效性。