属性加权的贝叶斯网络分类算法及其应用研究

来源 :中国地质大学 | 被引量 : 10次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类就是学习一个分类函数或者分类模型(即分类器),然后用学习得到的分类器将数据对象映射到某一个给定的类别中的过程。分类是机器学习与数据挖掘领域中一项非常重要的研究任务,在地质科学领域有着广泛的应用。比如,岩爆预测、边坡状态识别、油水层识别、矿物类型识别等等。分类器的学习方法非常多,常用的包括:贝叶斯网络方法、神经网络方法、决策树方法、支持向量机方法、近邻学习方法等等。其中,贝叶斯网络方法以其独特的不确定性知识表达形式、丰富的概率表达能力、以及综合先验知识的增量学习特性等成为众多学习方法中最为经典的方法之一。贝叶斯网络是一种用来表示变量间连续概率的有向无环图模型,学习最优的贝叶斯网络分类器和学习最优的贝叶斯网络一样,是一个Non-deterministic Polynomial难问题。因此,学习最简单的朴素贝叶斯分类器成为学者们研究的重点。然而,朴素贝叶斯分类器不现实的属性条件独立假设在很大程度上影响了它的分类性能。为了改进朴素贝叶斯分类算法,学者们提出了许多方法,概括起来主要包括五个方向:结构扩展、实例选择、实例加权、属性选择、属性加权。属性加权方法作为五大改进方向之一,得到了广大学者的关注。但就目前已经发表的研究成果来看,现有的属性加权方法还存在以下两个方面的不足:1)属性权值的学习还只关注到属性变量这个粒度(概念层),还没有关注到属性值这个粒度,即不同的属性值共享了相同的属性权值。2)属性权值的学习都假定是独立于类标记的,还没有考虑到属性权值与类标记的依赖关系,即不同的类标记共享了相同的属性权值。针对上述两个方面的不足,本文对贝叶斯网络分类算法的属性加权方法进行了更细粒度的研究,具体来说就是,对现有方法学到的属性权值矢量从横轴向和纵轴向两个方向分别进行扩展,提出了两个新的属性加权方向:属性值加权(横向扩展)和类依赖的属性加权(纵向扩展)。基于新提出的方向,提出了一种基于相关性的属性值加权的朴素贝叶斯网络分类算法、一种属性值加权的一依赖估测器分类算法和一种类依赖的属性加权的朴素贝叶斯网络分类算法。此外,为了探讨新算法在地质科学领域的实际应用价值,本论文还研究了新算法在岩爆预测、边坡状态识别、油水层识别三个地质工程问题中的应用效果。综上所述,本论文的主要贡献和创新点包括:1)提出了一种基于相关性的属性值加权的朴素贝叶斯网络分类算法(Correlation-based Attribute Value Weighted Naive Bayes,CAVWNB)。该算法为每个不同的属性值各分配一个不同的权值。具体在权值计算的过程中直接用属性值的相关性来估计属性值的权值。属性值的相关性包含两个部分:属性值与类之间的关联性以及属性值与属性值之间的冗余性。在CAVWNB算法中,分别采用相互信息和KL散度两种不同的度量方式来定义关联性和冗余性,对应两个不同的算法版本分别记为:CAVWNB-MI和CAVWNB-KL。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的属性加权的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在岩爆预测问题中的应用效果。2)提出了一种属性值加权的一依赖估测器分类算法(Attribute Value Weighted Average of One-dependence Estimators,AVWAODE)。本算法将改进朴素贝叶斯的结构扩展方法与属性值加权方法相结合,对一依赖估测器模型进行了属性值加权研究。AVWAODE算法首先为每个属性父亲结点对应的属性值赋予一个权值,然后将该权值作为对应的一依赖估测器的权值。在计算权值的过程中,分别采用KL散度和信息增益两种不同的度量方式来估计一依赖估测器的权值,对应两个不同的算法版本分别记为:AVWAODE-KL和AVWAODE-IG。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的结构扩展的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在边坡状态识别问题中的应用效果。3)提出了一种类依赖的属性加权的朴素贝叶斯网络分类算法(Class-Dependent Attribute Weighted Naive Bayes,CDAWNB)。CDAWNB算法为不同的类标记分配不同的属性权值。因此,CDAWNB算法所得到的属性权值是一个二维的权值矩阵,而现有的属性加权算法得到的属性权值是一个一维的权值矢量。CDAWNB算法是一种包装的属性加权方法,采用了两种不同的目标函数来优化搜索二维的权值矩阵。第一种优化的目标函数是条件似然对数CLL,对应的算法版本记为CDAWNBCLL。第二种优化的目标函数是均方误差MSE,对应的算法版本记为CDAWNBMSE。本论文用两组实验分别比较了新算法与朴素贝叶斯网络分类算法以及现有经典的属性加权的朴素贝叶斯网络分类算法的分类性能。此外,论文还研究了两种新算法在油水层识别问题中的应用效果。
其他文献
Traffice congestion^3 is a prominent^4 problem as the number of private cars is soaring^5 by more than 1,000 each day in Beijing. In 2003, Beijing recorded abou
目的:建立基于DSS的医院临床科室成本效益的关键业绩指标评价体系,为提高科室成本管理能力,调整和优化管理手段,扬长避短,提高医疗服务的效率和效益。方法:运用专家咨询法进行两轮
灰坝桥沟泥石流地处四川省攀枝花市西部山区,又处于金沙水电站附近区域,它的爆发会给当地人们生命财产及生态环境等造成严重影响,因此,对其进行相关研究具有重要意义。根据四
随着我国改革开放的不断深入,中小企业和民营经济已经成为拉动各个地方经济增长的重要力量。有关资料显示:中小企业占我国企业总数的99.5%强,中小企业的工业总产值和实现利税分别
沈阳蓝火炬软件有限公司(www.bluetorchsoft.com)于2004年7月在沈阳浑南开发区动漫基地成立,致力于3D休闲网络游戏的研发。
四、六级考试中经常会出现包含对立观点的作文题。这类题目既可以写成观点阐释型议论文.也可写成利弊争鸣型议论文。所谓观点阐释型议论文,即对某一问题明确提出自己的观点并详
A large part of longevity is dependent upon genetics.If your family members lived for a long time, chances are you will too, But, cautions Bradley Willcox of th
盾构隧道开挖对邻近建筑物的扰动是必然存在的,此类问题已得到了愈来愈广泛的关注。以佛山市三水区下穿盾构隧道工程为依托,利用数值摸拟法,计算分析了近距离下穿盾构隧道施
我国于80年代初开始人工驯养野生雉鸡,由于其野性强、繁殖率低而被淘汰;90年代初转向饲养美国七彩雉鸡,虽然其繁殖率高,但因其肉质粗糙、肉味清淡而销路不畅。1996年中国农业科学院特