论文部分内容阅读
文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,而文本分类器就是要预测携带很重要信息的少数类。由于不平衡数据集中少数类的表达不充分,而多数类信息占绝对优势地位,造成传统文本分类器在整个不平衡数据集上直接训练时,分类边界偏置于多数类。传统的文本分类算法对于不平衡数据中的少数类识别率比较低,如何有效的提高少数类的分类准确率成为机器学习和数据挖掘领域急需解决的问题。提高不平衡数据集文本分类性能的方法有基于样本空间的改造、文本分类算法的改进、组合分类算法的改进三大方向。本文开展的主要工作有:(1)在基于样本空间的改造方面,现有的研究多数仅考虑样本数目,未考虑抽样样本的权重。因此,本文提出了 KWCNB近邻文本加权补集的朴素贝叶斯文本分类算法,该算法使用KNN算法从多数类中选取k个近邻样本,同时赋予近邻样本权重,并使用样本的权重修改补集朴素贝叶斯中特征词所携带信息量的公式,解决了样本不均衡问题,同时削弱了补集朴素贝叶斯算法中属性之间相互独立的假设。(2)在文本分类算法改进方面,现有的研究利用朴素贝叶斯方法解决文本分类的效果很好,因此将该算法引入解决不平衡文本数据集。本文提出了 TFWCNB属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重,解决了训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。(3)在组合分类算法改进方面,现有的组合分类器并没有考虑基分类器算法与训练样本权重之间的关系。因此,文本提出ADAWCNB文本加权补集的朴素贝叶斯组合提升算法,该算法使用AdaBoost提升算法不断的迭代修改训练样本的权重,使分类器更加偏重那些被错误分类的训练样本,同时使用训练样本的权重修改基分类器补集朴素贝叶斯算法。该算法使用组合分类器,比它的基分类器更加准确,同时使用训练样本的权重修改补集朴素贝叶斯算法,进一步解了决少数类经常被误分类到多数类中的问题。本文采用分类准确率、召回率及G-mean几何平均准则对改进算法的性能进行评价,仿真实验表明:无论在平衡数据集或不平衡数据集上,ADAWCNB算法的表现最优,KWCNB算法次之,TFWCNB算法较差,但三种算法均在不同程度上优于传统的朴素贝叶斯分类算法及补集朴素贝叶斯分类算法,说明改进的算法具有一定的优势。