论文部分内容阅读
多侧面覆盖算法对海量高维数据的分类采用分而治之的思想,依据分量差的绝对值和,选取部分属性构建不同样本子集的覆盖,降低了学习的复杂度,但初始属性集的选择依据经验或实验获得,初始属性子集的选取不同可能导致分类结果出现差异。本文在多侧面覆盖的基础上弥补了其不足之处,通过降低初始属性集选择的主观性和属性集调整的复杂性,利用特征选择方法确定适合不同数据集的最优特征子集,构建了分层递阶的覆盖网络,并对实际数据集进行实验,主要完成以下工作:1.分析了覆盖算法的基本原理;针对不同子集选取不同子空间,用不同属性判断不同子集的多侧面覆盖的优点以及不足之处;特征选择概述以及本文涉及到的几种特征选择算法。2.采用特征选择算法选取部分子集的最优特征子集,给出基于特征选择的多侧面覆盖的具体算法;采用基于特征选择的多侧面覆盖算法对高维海量数据进行分类,检测算法是否有效可行。3.分别利用单纯的覆盖算法、多侧面覆盖算法和基于特征选择的多侧面覆盖算法对股市中交易日的数据进行分类,对比分类结果,从而证实基于特征选择的多侧面覆盖算法具有较高的精度和效率,可以有效地实现复杂问题的分类。