论文部分内容阅读
随着计算机软硬件技术的飞速发展,计算机的各种应用已经深入到我们日常生活的每一个角落.生活中大量的电子文本使得人们难以对其进行整理,因为传统的信息检索方法只针对于以纸张存储的信息,对电子文本的存储格式则无用武之地.于是学者开始运用各种机器学习、数据挖掘的方法对电子文本进行处理,以便人们对其进行检索,从中搜寻有用信息.在各种相关的研究中,文本分类(TextCategorization)是学者研究的一个热点.
文本分类的方法很多,诸如朴素贝叶斯分类方法、决策树分类方法、基于实例的分类方法、支持向量机分类方法等.评价分类方法的好坏会使用分准率(Precision)、分全率(Recall)、F1值或是使用它们的均值.在以往的大部分文本分类论文中,学者倾向于使用F1的微观均值.使用F1微观均值可以从总体上综合评价分类器的分类效果,但是掩盖了少数类分类精度低的问题.因为在少数类只占很小比重的文本分类应用中,F1微观均值与多数类的F1值只会有很小的差别,而多数类的F1值往往都是很高的.
本文针对文本分类中少数类分类精度低的问题展开讨论,从处理不平衡数据的角度,运用处理不平衡数据的方法——权重润饰、向下取样,提高少数类的分类精度.