论文部分内容阅读
贝叶斯分类方法能够较好地处理各种数据类型,随着中医诊断在规范化和量化方面的进步,越来越多的学者将贝叶斯分类方法应用在中医诊断中。朴素贝叶斯分类算法(NBC)作为其经典算法之一,具有结构简单、计算高效的优点。但NBC基本条件独立性的假设,限制了其使用范围;另外,随着数据量的增大,在实际数据集中常存在一些冗余属性,降低了NBC的学习效率和分类性能。为了更好地适应实际需求,本文以NBC为基本对象,从属性选择、属性加权和结构扩展三个方而对NBC进行改进,并将改进后的模型应用到不孕症中医诊断问题中,通过实验验证了其有效性和准确性。首先,为提高分类准确率,本文提出一种基于 KL距离与分裂信息的属性权值计算方法,并将此权值作为隐朴素贝叶斯模型(HNB)中属性的加权系数,提出一种改进的加权隐朴素贝叶斯分类算法(WHNBC)。实验结果表明了与其他分类算法相比,WHNBC算法提高了分类准确率,这也从侧面验证了本文提出的属性权值计算方法的正确性和有效性。其次,针对实际应用数据中存在冗余或无关属性的问题,本文在基于相关的属性选择算法基础上引入了Pearson相关系数和属性之间相关度方差的概念,提出了VCFSPabs属性选择算法。实验结果验证了该算法可以有效地去除冗余属性并获得良好的属性子集。然后,在属性子集和WHNBC算法的基础上,本文提出了一种基于属性选择的改进加权隐朴素贝叶斯分类模型(AS-WHNB),该模型主要由属性选择、属性权值计算以及模型的分类训练三部分组成。其中,在模型分类训练部分,我们将属性选择部分获得的属性子集,进一步划分为强属性子集和弱属性子集,并在两个子集上分别采用WHNBC模型和NBC模型进行训练。实验结果表明,当属性数目较多时,AS-WHNB分类模型不仅提高了分类准确率,还有效地降低了分类消耗时间。最后,我们对临床采集的不孕症数据集进行预处理,并将NB、C4.5、TAN、 AODE、WHNBC算法以及AS-WHNB分类模型应用到不孕症中医诊断问题中。对比并分析实际的实验结果可以发现,AS-WHNB分类模型具有较好的分类性能,这表明本文提出的AS-WHNB分类模型为不孕症中医诊断建模提供了一种好的思路和方法。