论文部分内容阅读
分类就是学习一个分类函数或者分类模型(即分类器),然后用学习得到的分类器将数据对象映射到某一个给定的类别中的过程。分类是机器学习与数据挖掘领域中一项非常重要的研究任务,在地质科学领域有着广泛的应用。比如,岩爆预测、边坡状态识别、油水层识别、矿物类型识别等等。分类器的学习方法非常多,常用的包括:贝叶斯网络方法、神经网络方法、决策树方法、支持向量机方法、近邻学习方法等等。其中,贝叶斯网络方法以其独特的不确定性知识表达形式、丰富的概率表达能力、以及综合先验知识的增量学习特性等成为众多学习方法中最为经典的方法之一。贝叶斯网络是一种用来表示变量间连续概率的有向无环图模型,学习最优的贝叶斯网络分类器和学习最优的贝叶斯网络一样,是一个Non-deterministic Polynomial难问题。因此,学习最简单的朴素贝叶斯分类器成为学者们研究的重点。然而,朴素贝叶斯分类器不现实的属性条件独立假设在很大程度上影响了它的分类性能。为了改进朴素贝叶斯分类算法,学者们提出了许多方法,概括起来主要包括五个方向:结构扩展、实例选择、实例加权、属性选择、属性加权。属性加权方法作为五大改进方向之一,得到了广大学者的关注。但就目前已经发表的研究成果来看,现有的属性加权方法还存在以下两个方面的不足:1)属性权值的学习还只关注到属性变量这个粒度(概念层),还没有关注到属性值这个粒度,即不同的属性值共享了相同的属性权值。2)属性权值的学习都假定是独立于类标记的,还没有考虑到属性权值与类标记的依赖关系,即不同的类标记共享了相同的属性权值。针对上述两个方面的不足,本文对贝叶斯网络分类算法的属性加权方法进行了更细粒度的研究,具体来说就是,对现有方法学到的属性权值矢量从横轴向和纵轴向两个方向分别进行扩展,提出了两个新的属性加权方向:属性值加权(横向扩展)和类依赖的属性加权(纵向扩展)。基于新提出的方向,提出了一种基于相关性的属性值加权的朴素贝叶斯网络分类算法、一种属性值加权的一依赖估测器分类算法和一种类依赖的属性加权的朴素贝叶斯网络分类算法。此外,为了探讨新算法在地质科学领域的实际应用价值,本论文还研究了新算法在岩爆预测、边坡状态识别、油水层识别三个地质工程问题中的应用效果。综上所述,本论文的主要贡献和创新点包括:1)提出了一种基于相关性的属性值加权的朴素贝叶斯网络分类算法(Correlation-based Attribute Value Weighted Naive Bayes,CAVWNB)。该算法为每个不同的属性值各分配一个不同的权值。具体在权值计算的过程中直接用属性值的相关性来估计属性值的权值。属性值的相关性包含两个部分:属性值与类之间的关联性以及属性值与属性值之间的冗余性。在CAVWNB算法中,分别采用相互信息和KL散度两种不同的度量方式来定义关联性和冗余性,对应两个不同的算法版本分别记为:CAVWNB-MI和CAVWNB-KL。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的属性加权的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在岩爆预测问题中的应用效果。2)提出了一种属性值加权的一依赖估测器分类算法(Attribute Value Weighted Average of One-dependence Estimators,AVWAODE)。本算法将改进朴素贝叶斯的结构扩展方法与属性值加权方法相结合,对一依赖估测器模型进行了属性值加权研究。AVWAODE算法首先为每个属性父亲结点对应的属性值赋予一个权值,然后将该权值作为对应的一依赖估测器的权值。在计算权值的过程中,分别采用KL散度和信息增益两种不同的度量方式来估计一依赖估测器的权值,对应两个不同的算法版本分别记为:AVWAODE-KL和AVWAODE-IG。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的结构扩展的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在边坡状态识别问题中的应用效果。3)提出了一种类依赖的属性加权的朴素贝叶斯网络分类算法(Class-Dependent Attribute Weighted Naive Bayes,CDAWNB)。CDAWNB算法为不同的类标记分配不同的属性权值。因此,CDAWNB算法所得到的属性权值是一个二维的权值矩阵,而现有的属性加权算法得到的属性权值是一个一维的权值矢量。CDAWNB算法是一种包装的属性加权方法,采用了两种不同的目标函数来优化搜索二维的权值矩阵。第一种优化的目标函数是条件似然对数CLL,对应的算法版本记为CDAWNBCLL。第二种优化的目标函数是均方误差MSE,对应的算法版本记为CDAWNBMSE。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的属性加权的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在油水层识别问题中的应用效果。