论文部分内容阅读
数据挖掘中有很多发现知识模式的方法,本文主要研究了其中的朴素贝叶斯分类模型。数据挖掘在当今互联网时代正发挥着越来越重要的作用,对人们的生产生活、社会的发展和经济的进步都有着巨大的推动作用。分类问题作为数据挖掘中最重要的问题之一也受到各界学者们的关注。朴素贝叶斯分类模型是一种被广泛知晓的分类问题解决方案,但其依然拥有着自身的局限性,即类条件独立性假设:不同的条件属性之间在类决策属性已知的条件下是相互独立的。同时,朴素贝叶斯分类模型认为各条件属性的类条件概率对分类的影响程度是相同的。这虽然简化了算法逻辑,降低了计算复杂度,但却是不完全符合现实生活的,因此导致了在很多应用场景中朴素贝叶斯分类模型不能有理想的分类结果。在结合粗糙集理论和信息论的基础上,本文提出了一种新的基于朴素贝叶斯的分类模型,该模型能够约简掉数据集中的冗余属性,同时计算约简后的各条件属性相对于决策属性的权重,将该权重融入到朴素贝叶斯分类模型中,达到提高朴素贝叶斯分类模型应用场景和分类精确度的目的。本文的主要研究内容有:首先,对贝叶斯理论和朴素贝叶斯分类模型做了研究和分析,介绍了贝叶斯决策准则、极大后验假设以及举例介绍了贝叶斯分类的过程。然后讲述了粗糙集基本理论,以及基于区分矩阵的正域约简算法,并简单介绍了信息论以及信息熵和条件熵的概念和计算方法,在此基础上引出了几种已经存在的利用信息熵和条件熵计算条件属性相对于决策属性重要度的公式,同时给出了利用这些公式来构造加权朴素贝叶斯分类模型的算法步骤。最后本文根据现有的粗糙集理论约简模型总结了利用粗糙集进行属性约简的一般思想,提出了一种基于粗糙集关联规则提取的新的属性约简算法,同时将该算法同已经成熟的加权朴素贝叶斯分类模型相结合,又构造了一种新的贝叶斯分类模型,本文称之为基于属性约简和属性加权的朴素贝叶斯分类模型(RW-NBC)。通过UCI数据集和在WEKA平台上的仿真实验,文章证明了本文所提出的两种算法模型的可行性和有效性。