论文部分内容阅读
粗糙集理论是一种数据信息的处理工具,能帮助我们从海量数据中高效的挖掘、获取出我们所需要的信息,在许多领域都得到广泛应用。但是经典的粗糙集理论模型只适合处理离散型数据,而在用其处理连续型数据时,需要先对数据离散化,这样容易导致某些数据信息的丢失。为此邻域粗糙集模型通过引入了邻域粒化和度量空间的概念,将粗糙集理论的等价关系转化为邻域空间上对信息粒子的覆盖关系,可直接处理连续型数据,避免了原粗糙集处理连续属性带来的信息丢失问题,扩大模型的适用范围。同时,由于邻域粗糙集模型引入了邻域粒化的计算,导致整体算法效率下降。本文主要是在现有邻域粗糙集属性约简模型的基础上,针对发现的问题,对其进行改进,并通过实验加以验证。另外,本文将改进的算法应用到改进的C4.5决策树分类器模型中,对其进行深入研究。本文主要工作如下:(1)对现有邻域粗糙集属性约简算法进行分析,针对现有算法中通过依赖度函数判断属性重要度来进行属性约简时,存在重复冗余计算,导致算法复杂度高、计算量大。本文重新定义了属性重要度的求解方法,降低了算法计算的复杂性。同时,为了减少属性间的相关性对最终结果的影响,引入相关系数的有关知识,进一步筛检属性。最终提出一种适用于二分类问题的属性约简算法。通过与其他算法的实验对比,验证了本文算法可降低属性约简的复杂度,提高运行效率。(2)现实中除了二分类问题,还有许多多分类问题。为了克服上述算法的局限性,本文结合Relief算法,提出适用于多分类情况下的属性重要度加权函数,并将其应用到邻域粗糙集属性约简的模型当中。最终提出基于Relief算法的邻域粗糙集快速属性约简算法。并通过实验验证算法是有效可行的。(3)分析了C4.5决策树分类算法,对其中存在的问题进行相应改进。将本文改进的属性重要度算法作为C4.5算法中分裂节点的选择标准,同时基于Fayyad的边界点判定定理,优化连续属性分割阈值的选择方法,减少阈值选择时对数据集的遍历次数,构建出一种同时适用于离散型和连续型数据的分类器模型,并通过实验证明了该模型对提高决策树分类精度和决策树生成效率是有效的。