文本分类中不平衡数据的处理

来源 :中山大学 | 被引量 : 0次 | 上传用户:lyk_csdn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着计算机软硬件技术的飞速发展,计算机的各种应用已经深入到我们日常生活的每一个角落.生活中大量的电子文本使得人们难以对其进行整理,因为传统的信息检索方法只针对于以纸张存储的信息,对电子文本的存储格式则无用武之地.于是学者开始运用各种机器学习、数据挖掘的方法对电子文本进行处理,以便人们对其进行检索,从中搜寻有用信息.在各种相关的研究中,文本分类(TextCategorization)是学者研究的一个热点.   文本分类的方法很多,诸如朴素贝叶斯分类方法、决策树分类方法、基于实例的分类方法、支持向量机分类方法等.评价分类方法的好坏会使用分准率(Precision)、分全率(Recall)、F1值或是使用它们的均值.在以往的大部分文本分类论文中,学者倾向于使用F1的微观均值.使用F1微观均值可以从总体上综合评价分类器的分类效果,但是掩盖了少数类分类精度低的问题.因为在少数类只占很小比重的文本分类应用中,F1微观均值与多数类的F1值只会有很小的差别,而多数类的F1值往往都是很高的.   本文针对文本分类中少数类分类精度低的问题展开讨论,从处理不平衡数据的角度,运用处理不平衡数据的方法——权重润饰、向下取样,提高少数类的分类精度.   
其他文献
  本文研究的是如何在DCT域上面提取图像的连续轮廓,提出了三种算法,找出像素域上面Snake算法中内部能量和外部能量的DCT系数表达方式,将像素域上的Snake算法成功的移植到DCT
本文引入Cn中单位球上Mobius不变的Banach空间QK={f∈H(B):supα∈B∫B|()f(z)|2K(G(z,α))dλ(z)<∞}和空间QK,0={f∈H(B):lim|α|→1∫B|()f(x)|2K(G(z,α))dλ(z)=0},K是(0,∞)
  面板数据又称为平行数据、纵向数据,是用来描述一个总体中给定样本在一段时间的情况,并对样本中每一个样本单位都进行多重观察。面板数据研究已成为近十年来经济计量学的一
学位
宣传思想工作一直是我们党的一大政治优势,是统一思想、团结群众、克难制胜的一大法宝。最近,胡锦涛总书记在全国宣传思想工作会议上指出,宣传思想工作要注意“总结经验,深
排序问题是一类经典的组合优化问题,并从上世纪50年代开始,伴随着生产制造领域的规模化与自动化而不断发展和成熟。本文主要研究一类带运输的排序问题,该类问题在供应链管理中具
  本文讨论了二项分布的成功率θ的经验贝叶斯估计,指出成功率θ的经验贝叶斯过程如果以Beta(a,b)作为成功率θ的先验分布,则存在超参数a,b的估计值小于零的情形;针对这种情况,文
近年来,多项式系统的定性与分支理论正系统而深入地研究着,并且随着多项式系统的迅猛发展及其在物理、化学、生物、工程、经济与社会等领域中的广泛应用,多项式分支问题的研究已
在Android应用市场上的移动应用程序中,存在数量众多的对合法应用程序肆意进行修改,并用新的签名密钥进行重新打包并重新发布应用的现象。现有的Android应用相似性研究存在着特
最近,关于Kac方程的研究已经越来越多地引起了人们的重视.自从著名的物理学家Boltzmann提出Boltzmann方程以来,关于这种特殊方程的研究就一直吸引着无数学者的目光.对于发生弹