文本分类中不平衡数据的处理

来源 :中山大学 | 被引量 : 0次 | 上传用户：lyk_csdn

【摘要】

：

　　随着计算机软硬件技术的飞速发展，计算机的各种应用已经深入到我们日常生活的每一个角落.生活中大量的电子文本使得人们难以对其进行整理，因为传统的信息检索方法只针对于

【作者】

：

骆凯敏

【机构】

：

中山大学

【出处】

：

中山大学

【发表日期】

：

2005年期

【关键词】

：

文本分类机器学习权重润饰向下取样

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　随着计算机软硬件技术的飞速发展，计算机的各种应用已经深入到我们日常生活的每一个角落.生活中大量的电子文本使得人们难以对其进行整理，因为传统的信息检索方法只针对于以纸张存储的信息，对电子文本的存储格式则无用武之地.于是学者开始运用各种机器学习、数据挖掘的方法对电子文本进行处理，以便人们对其进行检索，从中搜寻有用信息.在各种相关的研究中，文本分类(TextCategorization)是学者研究的一个热点. 　　文本分类的方法很多，诸如朴素贝叶斯分类方法、决策树分类方法、基于实例的分类方法、支持向量机分类方法等.评价分类方法的好坏会使用分准率(Precision)、分全率(Recall)、F1值或是使用它们的均值.在以往的大部分文本分类论文中，学者倾向于使用F1的微观均值.使用F1微观均值可以从总体上综合评价分类器的分类效果，但是掩盖了少数类分类精度低的问题.因为在少数类只占很小比重的文本分类应用中，F1微观均值与多数类的F1值只会有很小的差别，而多数类的F1值往往都是很高的. 　　本文针对文本分类中少数类分类精度低的问题展开讨论，从处理不平衡数据的角度，运用处理不平衡数据的方法——权重润饰、向下取样，提高少数类的分类精度. 　　

其他文献

DCT域上连续轮廓的提取

　　本文研究的是如何在DCT域上面提取图像的连续轮廓，提出了三种算法，找出像素域上面Snake算法中内部能量和外部能量的DCT系数表达方式，将像素域上的Snake算法成功的移植到DCT

学位

连续轮廓边缘算子离散余弦变换内容检索系统特征提取特征子图图片检索

C<'n>中单位球上的Q<,K>空间和Bloch型空间

本文引入Cn中单位球上Mobius不变的Banach空间QK={f∈H(B)：supα∈B∫B｜()f(z)|2K(G(z，α))dλ(z)＜∞}和空间QK,0={f∈H(B):lim|α|→1∫B|()f(x)|2K(G(z,α))dλ(z)=0}，K是(0，∞)

学位

Bloch空间单位球方向导数体积测度

基于面板数据的半参数估计与应用

　　面板数据又称为平行数据、纵向数据，是用来描述一个总体中给定样本在一段时间的情况，并对样本中每一个样本单位都进行多重观察。面板数据研究已成为近十年来经济计量学的一

学位

面板数据半参数估计扩展局部回归法虚拟变量

计算单位圆上一类偏微分方程多解的分歧方法

学位

坚持“三贴近” 提高宣传思想工作水平

宣传思想工作一直是我们党的一大政治优势,是统一思想、团结群众、克难制胜的一大法宝。最近,胡锦涛总书记在全国宣传思想工作会议上指出,宣传思想工作要注意“总结经验,深

期刊

思想工作大庆市委中心工作工程管理处思想政治工作捐款捐物五好文明家庭“希望工程”工青妇组织青年志愿者

若干带运输排序问题研究

排序问题是一类经典的组合优化问题，并从上世纪50年代开始，伴随着生产制造领域的规模化与自动化而不断发展和成熟。本文主要研究一类带运输的排序问题，该类问题在供应链管理中具

学位

排序问题供应链管理近似算法最坏情况界

二项分布的经验贝叶斯估计

　　本文讨论了二项分布的成功率θ的经验贝叶斯估计，指出成功率θ的经验贝叶斯过程如果以Beta(a，b)作为成功率θ的先验分布，则存在超参数a，b的估计值小于零的情形；针对这种情况，文

学位

二项分布经验贝叶斯估计先验分布

近Hamilton系统的极限环分支与混沌

近年来，多项式系统的定性与分支理论正系统而深入地研究着，并且随着多项式系统的迅猛发展及其在物理、化学、生物、工程、经济与社会等领域中的广泛应用，多项式分支问题的研究已

学位

Hamilton系统极限环同宿轨异宿轨Melnikov函数

基于图特征向量的Android程序相似性检测算法研究

在Android应用市场上的移动应用程序中，存在数量众多的对合法应用程序肆意进行修改，并用新的签名密钥进行重新打包并重新发布应用的现象。现有的Android应用相似性研究存在着特

学位

Android应用相似性图特征向量依赖图比较算法

广义Kac方程

最近，关于Kac方程的研究已经越来越多地引起了人们的重视.自从著名的物理学家Boltzmann提出Boltzmann方程以来，关于这种特殊方程的研究就一直吸引着无数学者的目光.对于发生弹

学位

广义Kac方程非弹性碰撞收敛速率相似解概率距离

文本分类中不平衡数据的处理

与本文相关的学术论文