论文部分内容阅读
分类算法是机器学习、模式识别、数据挖掘等领域中研究和应用最广泛的一个重要课题。目前已知的分类算法中一种重要的基于统计方法的模型是贝叶斯分类模型,在贝叶斯分类模型中实用性最高和应用最广泛的是朴素贝叶斯分类器。但是由于朴素贝叶斯基于的条件独立性假设在现实的并不一定成立,因此为了提高其性能,研究人员们提出了多种可以表示属性间依赖关系的朴素贝叶斯分类器的改进算法(如TAN,AODE,HNB等)。但是这些改进算法大多不能直接处理连续属性值类型,因此连续类型的属性值必须先离散化后才能被处理,这样可能会造成不必要的精度损失,尤其当训练数据中包含较多的连续变量属性的情况下。
在本文中我们提出了通过有效地定义条件概率分布来改善基于朴素贝叶斯分类器的改进算法的性能的方法,并在Weka的框架下实现了我们提出的改进算法,同时考虑到AODE算法较高的空间复杂度,我们利用选择性集成的思想对AODE算法进行了改进,以降低其存储空间复杂度。试验结果亦证明我们提出的改进算法与原始算法相比在性能上有一定程度的提高,并且具有更好的实用性。