具有降维容噪特性的决策树算法改进

来源 :郑州大学 | 被引量 : 0次 | 上传用户:nokisoki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅速发展,高维数据在社会科学和自然科学研究领域广泛出现,一方面带来了更多可用信息,另一方面给数据的处理分析带来了巨大挑战。尤其是随着数据挖掘技术的广泛应用,数据挖掘分类结果对噪声敏感已成为一个不容忽视的问题,这就要求进一步优化现有分类技术。为了提升分类算法对高噪声环境中的高维数据的预测能力,本文以C4.5决策树分类算法为优化对象并进行深入研究,运用容噪主成分分析(Noise-free Principal Component Analysis,NFPCA)的算法思想对传统C4.5算法改进,提出了NFPCA-in-C4.5算法,来解决高维数据的高噪声问题带来的决策树预测准确率下降问题。主要工作包括:(1)详细地从PCA算法机制上分析了含噪声的高维数据经过PCA算法降维处理后,所得主成分空间仍受噪声污染的原因;然后综合考虑了高维高噪声数据的高维度和高噪声因素对决策树分类模型预测效果影响,运用NFPCA算法思想将高维数据的噪声控制问题转化为拟合数据特征与控制平滑度相结合的最优化问题,此最优化问题符合正则化最小二乘问题定义,经求解可获得相对无噪声的主成分空间,这样不仅降低了维度,更减弱了噪声的影响。(2)在构造决策树模型过程中,充分利用了决策树自顶向下递归构建新节点的特性。首先,当构建父节点时,将原始数据空间通过NFPCA算法转换到主成分空间;然后将主成分空间数据集基于信息熵的属性选择方式进行划分;最后,构建子节点时,将划分后的各数据子集恢复到原始数据空间。通过此种原始数据空间和主成分空间在父节点和子节点之间的映射转换与再恢复,避免了降维过程中信息损失,降低了信息损失对C4.5算法预测准确率的影响。本文通过实验对比了C4.5和NFPCA-in-C4.5算法的准确率变化和预测模型规模变化,来体现NFPCA-in-C4.5算法的性能优势。实验结果表明本文提出的NFPCA-in-C4.5算法针对高维高噪数据的特点,充分利用决策树中父、子节点数据集之间关系的特性,将NFPCA降噪处理融合进入C4.5算法的构造过程中,在不断的节点构建中达到降维降噪的目的,改变了传统降噪处理仅作为预处理的现状,使得NFPCA-in-C4.5算法兼具降维和容噪功能,提高了决策树算法的健壮性,避免了降维中特征信息损失和噪声残留造成的预测模型准确率大幅降低问题,保证了高维高噪声数据环境中预测结果的稳定性和模型结构的简洁性和稳定性。
其他文献
知识丰富的工作流系统在实现企业过程重组、面向过程的应用等方面显示了强大的功能和广阔的应用前景。目前相对知识工作流产品的实现技术和发展速度而言,基于工作流知识的建
随着Internet的不断发展以及信息处理的不断增多,数据库安全问题变得日益重要。数据库中原始数据一般以明文形式存储,很容易被外部恶意攻击者窃取。目前,数据加密技术成为一
Internet的迅猛发展推动了视频直播系统的广泛应用,但现有的视频直播系统在扩展性、鲁棒性、质量保证等方面远远不能满足需要。传统的基于单播的传输方式很容易导致服务器端
由于用户越来越多的个性化网络服务需求,传统互联网的僵化现象日渐显著。网络虚拟化不仅被认为是创建云计算生态系统的有效技术,而且被认为是未来互联网最有应用前景的技术。
无线传感网(Wireless Sensor Network,WSN)综合了嵌入式系统,无线通信和现代网络等先进技术,目前已经成为研究的热点方向和领域。通过在监测区域内布置一定数量传感器节点进
Peer-to-Peer(P2P)以其丰富的应用模式正在迅速流行,在短短几年里,P2P应用己成为了占用Internet流量最多的应用,被《财富》杂志称为改变互联网未来发展方向的四大技术之一。
目前,对仪表进行校准和检定工作主要还是由人来完成的,这种采用人工读取和记录其数据的方式,存在着工作效率低,检测精度难以保证等缺陷。如何解决这些问题已越来越引起仪表生产厂
话音安全传输系统需要解决的主要问题是传输和安全。传输主要包括语音流传输和语音编码的研究,其中语音编码是整个系统的难点,也是本文的重点。话音压缩编码解决了话音原始数
随着Internet的迅速发展,网络信息不断膨胀,给搜索引擎带来了前所未有的挑战。人们对搜索引擎的关注程度越来越高,因此搜索引擎的发展水平在一定的程度上决定了互联网资源的
句法分析的基本任务是确定句子的句法结构,由于语言的复杂性,句法结构往往有歧义的存在,需要引入大量信息来减少歧义,提高句法分析结果。句法分析一般分为短语结构句法分析和