基于信息论的自适应贝叶斯网络分类器

来源 :吉林大学 | 被引量 : 0次 | 上传用户:weishuren33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为机器学习领域的重要分支,分类问题旨在训练阶段根据有标签的训练集训练一个模型,在分类阶段用该模型为无标签样本分配一个类标签。目前,在实际应用中广泛使用的有监督分类器有很多,贝叶斯网络分类器(Bayesian network classifier,BNC)由于其模型可解释性和优异的分类性能广为流行。朴素贝叶斯(Naive Bayes,NB)由于假设特征间互相独立,成为了最简单高效的BNC之一。NB的成功吸引了研究者的广泛关注。然而NB特征间的独立性假设在实际情况中通常不成立,因此放松独立假设、扩展依赖表示的BNC成为了NB的改进方向之一,其中比较成功的算法如,树增广朴素贝叶斯(Tree-Augmented Naive Bayes,TAN)和k阶依赖贝叶斯分类器(kDependence Bayesian Classifier,KDB)等。此外,对NB进行属性选择和进行属性加权也是比较流行的改进方向。在依赖扩展方法中,需要有选择的向网络结构添加属性间依赖关系,使网络结构能够表达更多的条件依赖。虽然能够有效地提高分类性能,但是也大大增加了算法的复杂度,这也是单模型方法在增加性能上不可避免的问题。多模型集成的BNC很好的解决了这个问题,同时不同的子模型可能适用于不同情况,极大的增加了模型的适应性。集成方法的灵活性和子模型的可调整,使得集成BNC方法成为了广受欢迎的方法。本文主要提出了以下方法对BNC进行了改进:1.在模型构建和依赖扩展中,研究人员更多关注的是识别条件依赖而不是条件独立性,而信息论的标准无法识别不同实例的条件依赖的多样性。因此文中引入最大相关准则和最小依赖准则,分别进行属性排序和条件独立性识别。接着提出了从未标记数据获取信息的方法从而构建了伪训练集,并且算法分别在训练集和扩展的伪训练集上获得模型。通过两个模型的集成使得算法对不同实例具有一定的适应性。2.平均一阶依赖估计器(AODE)中所有SPODE(super-parent one-dependence estimator)都具有相同的权值,但是不同SPODE的分类精度可能有很大差别。为了解决这一问题,模型加权法是一种有效的方法,它将不同的权值分配给不同的SPODE,然后将它们的概率估计进行线性组合。大多数信息论加权方法,包括互信息、Kullback-Leibler散度和信息增益,都强调超父节点和类变量之间的相关性,而不去关心其它节点。因此,文中引入多变量互信息来度量有向无环子图中各个变量的相关性。在此前提下,本文引入了一种新的加权AODE算法,即自适应加权的一阶依赖估计器(AWODE),其权重可以根据实例变化,放松了条件独立假设,并使学习到的概率分布适应不同实例。为了验证提出的算法性能,本文在0-1损失、偏差和方差等实验方法上进行了广泛实验。根据从UCI随机选取的数据集实验结果来看,本文提出的算法对比经典的BNC具有普遍优势,算法的有效性得到了验证。
其他文献
辽东地区广泛出露中生代小岭组火山岩,目前有关这些火山岩的岩石组合、形成时代、岩石成因及其所反映的构造背景还存在诸多不确定性。本文选择辽东岫岩地区小岭组火山岩作为研究对象,在详细的野外地质调查以及室内显微岩相学分析的基础上,通过LA-ICP-MS锆石U-Pb定年、全岩主量、微量元素以及Hf同位素分析,确定了该组火山岩的岩石组合、形成时代并讨论了它们的源区性质及其构造背景。辽东岫岩地区小岭组火山岩主要
头道川金矿床位于吉林省永吉县境内,大地构造位置上地处华北板块北缘与兴蒙造山带东南端的交汇部位,是吉林中部发现和开发较早但理论研究薄弱的一个小型金矿床。本文在收集区域地质矿产资料和矿区勘查资料基础上,通过野外调研、测试分析和综合研究,查明了头道川金矿床的地质背景、矿床地质特征、成矿地质条件和成矿物理化学条件,示踪了成矿流体和物质来源,确定了矿床成因;开展了成矿岩体的同位素年代学和地球化学特征研究,限
维持表约束网络广义弧相容(generalized arc consistency,简称GAC)的串行传播模式是约束程序搜索技术研究的一个重要分支,该模式由串行传播算法和串行过滤算法两部分组成,串行传播算法会依次执行在表约束上维持GAC的串行过滤算法。为了进一步提升串行传播模式的效率,本文关注到了并行计算。并行计算是在不改变预期结果的情况下,同时对问题的多个部分进行处理的能力。随着计算机并行处理能力
黑龙江省嫩江县三峰山地区地处中亚造山带东段,贺根山-黑河断裂带西侧,成矿区隶属于三矿沟-多宝山铜金多金属成矿带。研究区出露的地层以早古生代奥陶纪和志留系为主,岩浆岩主要为燕山期侵入岩。区内构造以NW向和NE向断裂、褶皱、韧性剪切带为主。区内铜金矿化主要呈细脉状产于志留系黄花沟组地层之中,矿(化)体产出受NW向断裂控制。围岩蚀变类型包括硅化、青磐岩化、绢云母化、碳酸盐化、高岭土化等,根据矿物组合及矿
本文以松辽盆地滨北地区晚古生代为研究对象,应用地质、地震、钻井等资料对松辽盆地滨北地区晚古生代的地层分布特征、构造特征、成藏条件进行了研究。首先应用野外实测剖面、钻井、地震资料确定松辽盆地滨北地区晚古生代地层分布范围。然后结合地层分布特征,地球化学,地震资料对研究区烃源岩开展研究,在此基础上结合生储盖发育特征研究。探讨研究区成藏特征并指出有利区带。(1)结合区域地质背景、岩性特征和钻井、地震资料分
在人工智能研究领域,计划生成问题是研究热点之一。计划是指挥决策的重要内容,尤其在作战领域当中,现代战争形式逐渐转向以网络为中心的信息化联合作战,作战计划的自动生成是其中重要的一环。计划制定的关键步骤就是合理规划行动序列(Course of Action,COA)。COA本体作为描述计划相关概念的知识模型,为行动规划提供支持。传统的计划生成技术是对COA本体中的行动、状态实例进行匹配,组成行动序列方
人脸检测作为计算机视觉中的重要研究方向之一,得益于硬件设备的进步、深度学习技术的快速发展,其性能也得到了不断的提高。从传统的人脸检测方法发展到现今的基于深度学习的人脸检测方式,不仅仅在检测效果上有了一定的提升,而且在检测速度上有了很大的提高。在人脸检测的应用场景中会存在很多非受限的场景,在这些相对复杂的场景下,对于人脸检测的准确度有着很大的挑战,例如人脸遮挡、人脸模糊和小尺度人脸等。这些环境下的人
地磁异常判定是地磁学研究的重要分支,其主要目的是从地磁异常的角度进行地震前兆分析,进而为地震预报提供有效依据。目前,由江苏省地震局开发的地磁分析预报软件是国内实现地磁异常判定的主要工具。据统计,目前使用地磁分析预报软件进行地磁异常判定,进而实现地震预报的准确率约为50%,这一数值尚不能满足地磁异常与地震的准确对应。而奇异谱分析和ARMA模型拟合在强化原始数据特征、去除噪声等方面具有显著效果。因此,
造山型金矿床在世界上占据重要的地位。这类矿床形成于太古代到新生代时期,主要分布于活动大陆边缘地区,形成于挤压或者向挤压转换的构造环境中。在不同的垂向深度上可连续形成金矿,并且大多经历了绿片岩相变质作用。这类矿床是受控于脆韧性断裂体系的脉型或者浸染型金矿床。青沟子锑矿床位于华北克拉通的东部边缘。研究区位于辽吉活动带中,北临龙岗地块,南接郎林地块。该矿床经历了多期变形作用,形成了一系列的逆冲断层和正断
本文对吉林省和黑龙江省东部的延边-东宁地区晚三叠世-早侏罗世火山岩进行了锆石U-Pb年代学、地球化学、全岩Sr-Nd同位素及锆石原位O同位素的研究,查明了火山岩的形成时代和岩浆源区性质,探讨了延边-东宁地区晚三叠世-早侏罗世火山岩形成的构造背景及深部动力学机制。锆石U-Pb年代学结果显示,延边-东宁地区晚三叠世罗圈站组和天桥岭组火山岩的形成时代分别为213~206 Ma和221 Ma,早侏罗世南村