论文部分内容阅读
决策树是一种有效的数据挖掘方法,进一步改进决策树,提高决策树的性能,使其更加适合数据挖掘技术的发展要求,具有重要的理论和实践意义。本文对决策树算法中涉及的样本筛选方法和测试属性选择标准进行了深入研究,主要包括以下几个方面的内容:通过分析基于重复剪辑近邻法筛选样本的原理,提出了引入拒绝阀值的重复剪辑近邻法。与重复剪辑近邻法相比,该方法通过引入拒绝阀值来减小样本被误剔除的可能性,进而减小决策树的判决风险和误判概率。通过仿真实验比较这两种方法发现,引入拒绝阀值的重复剪辑近邻法在降低判决风险和误判概率上要优于重复剪辑近邻法;而在决策树的规模和分类错误率上,重复剪辑近邻法的精度要优于引入拒绝阀值的重复剪辑近邻法。同时,用这两种方法对样本集进行筛选,都能在不损害分类准确率的同时减小决策树的规模。提出了一种基于修正系数的测试属性选择标准。该方法利用修正系数降低信息增益大且取值个数多的属性的信息增益,与信息增益和引入用户兴趣度的测试属性选择标准相比,此方法既克服了ID3算法存在的多值偏向问题,又克服了采用用户兴趣度产生的对多值属性重要性的主观评测等问题。同时保持了决策树算法不要求用户掌握应用领域的知识,完全通过样本集自动构建分类器对未知数据进行分类的优点。提出了一种组合优化决策树算法。该算法从样本筛选和测试属性选择标准方面进行了改进,对决策树建立过程中易受噪声影响和易产生多值偏向问题的主要环节进行了优化。仿真实验表明了该算法在减小决策树规模的同时提高了分类准确率。