论文部分内容阅读
随着信息技术的迅速发展,高维数据在社会科学和自然科学研究领域广泛出现,一方面带来了更多可用信息,另一方面给数据的处理分析带来了巨大挑战。尤其是随着数据挖掘技术的广泛应用,数据挖掘分类结果对噪声敏感已成为一个不容忽视的问题,这就要求进一步优化现有分类技术。为了提升分类算法对高噪声环境中的高维数据的预测能力,本文以C4.5决策树分类算法为优化对象并进行深入研究,运用容噪主成分分析(Noise-free Principal Component Analysis,NFPCA)的算法思想对传统C4.5算法改进,提出了NFPCA-in-C4.5算法,来解决高维数据的高噪声问题带来的决策树预测准确率下降问题。主要工作包括:(1)详细地从PCA算法机制上分析了含噪声的高维数据经过PCA算法降维处理后,所得主成分空间仍受噪声污染的原因;然后综合考虑了高维高噪声数据的高维度和高噪声因素对决策树分类模型预测效果影响,运用NFPCA算法思想将高维数据的噪声控制问题转化为拟合数据特征与控制平滑度相结合的最优化问题,此最优化问题符合正则化最小二乘问题定义,经求解可获得相对无噪声的主成分空间,这样不仅降低了维度,更减弱了噪声的影响。(2)在构造决策树模型过程中,充分利用了决策树自顶向下递归构建新节点的特性。首先,当构建父节点时,将原始数据空间通过NFPCA算法转换到主成分空间;然后将主成分空间数据集基于信息熵的属性选择方式进行划分;最后,构建子节点时,将划分后的各数据子集恢复到原始数据空间。通过此种原始数据空间和主成分空间在父节点和子节点之间的映射转换与再恢复,避免了降维过程中信息损失,降低了信息损失对C4.5算法预测准确率的影响。本文通过实验对比了C4.5和NFPCA-in-C4.5算法的准确率变化和预测模型规模变化,来体现NFPCA-in-C4.5算法的性能优势。实验结果表明本文提出的NFPCA-in-C4.5算法针对高维高噪数据的特点,充分利用决策树中父、子节点数据集之间关系的特性,将NFPCA降噪处理融合进入C4.5算法的构造过程中,在不断的节点构建中达到降维降噪的目的,改变了传统降噪处理仅作为预处理的现状,使得NFPCA-in-C4.5算法兼具降维和容噪功能,提高了决策树算法的健壮性,避免了降维中特征信息损失和噪声残留造成的预测模型准确率大幅降低问题,保证了高维高噪声数据环境中预测结果的稳定性和模型结构的简洁性和稳定性。