论文部分内容阅读
贝叶斯分类模型作为分类知识发现的一种重要方法,是贝叶斯网络学习、理论研究的核心问题之一.本文主要运用贝叶斯学习理论和信息论的基本观点对发现数据之间潜在的关系进行了探索,结合依赖分析与假设检验提出一种改进的构造贝叶斯网络分布学习算法,并进行了仿真实验来验证该算法的有效性.首先,针对样本数据中影响分类效果的冗余属性和无关属性,本文基于属性间的关联性,提出一种马尔科夫毯过滤法:保留全部的强关联属性和部分弱关联属性,去掉全部的不关联属性.其次,探讨了贝叶斯网络结构学习中的一些基本问题,并提出了一种基于信息论与假设检验相结合的依赖分析方法构造贝叶斯网络结构的算法DAHT,从理论上分析了其计算复杂度.最后,将DAHT算法运用到GBN贝叶斯网络分类模型构建中,并对UCI中的七组数据进行仿真实验.从分类正确率和分类耗时上与NBC、TAN分类器进行性能比较分析,结果表明对于大部分数据集,GBN的分类效果优于对比的其它分类算法.