面向不平衡数据集的朴素贝叶斯文本分类算法改进研究

来源 :东北林业大学 | 被引量 : 4次 | 上传用户：ssathena

【摘要】

：

文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,而文本分类器就是

【作者】

：

陈凯

【出处】

：

东北林业大学

【发表日期】

：

2018年01期

【关键词】

：

不平衡数据集文本加权属性加权组合分类器朴素贝叶斯

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本分类是数据挖掘领域的热点问题,但在实际应用中,会出现一些类中的文本很多,而另外一些类中的文本相对较少,不同类别数据集规模之间出现明显的倾斜情况,而文本分类器就是要预测携带很重要信息的少数类。由于不平衡数据集中少数类的表达不充分,而多数类信息占绝对优势地位,造成传统文本分类器在整个不平衡数据集上直接训练时,分类边界偏置于多数类。传统的文本分类算法对于不平衡数据中的少数类识别率比较低,如何有效的提高少数类的分类准确率成为机器学习和数据挖掘领域急需解决的问题。提高不平衡数据集文本分类性能的方法有基于样本空间的改造、文本分类算法的改进、组合分类算法的改进三大方向。本文开展的主要工作有:(1)在基于样本空间的改造方面,现有的研究多数仅考虑样本数目,未考虑抽样样本的权重。因此,本文提出了 KWCNB近邻文本加权补集的朴素贝叶斯文本分类算法,该算法使用KNN算法从多数类中选取k个近邻样本,同时赋予近邻样本权重,并使用样本的权重修改补集朴素贝叶斯中特征词所携带信息量的公式,解决了样本不均衡问题,同时削弱了补集朴素贝叶斯算法中属性之间相互独立的假设。(2)在文本分类算法改进方面,现有的研究利用朴素贝叶斯方法解决文本分类的效果很好,因此将该算法引入解决不平衡文本数据集。本文提出了 TFWCNB属性加权补集的朴素贝叶斯文本分类算法,该算法使用属性加权改进补集朴素贝叶斯算法,使用TF-IDF算法计算特征词在当前文档中的权重,解决了训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。(3)在组合分类算法改进方面,现有的组合分类器并没有考虑基分类器算法与训练样本权重之间的关系。因此,文本提出ADAWCNB文本加权补集的朴素贝叶斯组合提升算法,该算法使用AdaBoost提升算法不断的迭代修改训练样本的权重,使分类器更加偏重那些被错误分类的训练样本,同时使用训练样本的权重修改基分类器补集朴素贝叶斯算法。该算法使用组合分类器,比它的基分类器更加准确,同时使用训练样本的权重修改补集朴素贝叶斯算法,进一步解了决少数类经常被误分类到多数类中的问题。本文采用分类准确率、召回率及G-mean几何平均准则对改进算法的性能进行评价,仿真实验表明:无论在平衡数据集或不平衡数据集上,ADAWCNB算法的表现最优,KWCNB算法次之,TFWCNB算法较差,但三种算法均在不同程度上优于传统的朴素贝叶斯分类算法及补集朴素贝叶斯分类算法,说明改进的算法具有一定的优势。

其他文献

“互联网+”视域下博物馆文化的融合传播策略及效果研究

互联网作为一种新型社会工具,正逐渐渗透到社会生活的各个方面,建构了新的信息传播环境更推动了社会经济发展模式的变革与重构。随着“互联网+”战略的不断深化,各行各业都在积极寻找与互联网深度融合的方法,传统产业也在经营模式、业务流程及传播策略等方面进行调整与变革。在互联网渗透大众物质文化生活的过程中,文化产业正努力打破时空的禁锢,以更加符合大众媒介习惯的传播方式来获取更大范围的认同与传播。博物馆作为现代

学位

博物馆文化互联网+融合传播传播策略传播效果

我国居家养老服务市场化供给研究

借鉴西方社会公共服务市场化的理论,阐述我国居家养老服务市场化供给的内涵与特点,分析面临的制约及其突破的路径。针对目前我国居家养老服务市场化供给中存在的问题和制约因

期刊

政府购买公共服务居家养老服务市场化供给

谈信息技术与小学科学实验的有机融合

本文主要探索利用信息技术辅助小学科学实验,提升实验效率,培养学生动手能力和创新能力的途径。分别从利用相机记录实验,利用动画模拟实验,利用网络拓展实验等方面进行论述。

期刊

信息技术小学科学实验

基于粘滞阻尼器的建桥合一结构减震控制研究

近年来,随着我国经济实力的提升和科技的发展,城市轨道交通体系也在逐步得到完善。随着轨道交通向郊区逐步延伸,各大城市的轨道交通建设呈现出了线路高架化趋势,地铁高架车站

学位

建桥合一结构粘滞阻尼器地震响应消能减震

介词on,over和above的意象图式分析

文章旨在运用认知语言学中的意象图式对三个近义介词“on-over-above”进行分析,在以图式表征为依据的基础上,探究介词“on-over-above”的原型图式及其图式变体而引起的词义

期刊

意象图式on-over-above原型图式变体词义延伸

共情护理技术对改善焦虑抑郁患者共情能力的研究

目的观察在临床护理中共情技术与普通护理改善焦虑抑郁患者心理及共情能力的作用。方法将73名焦虑抑郁患者随机分为共情护理组(n=36)与常规护理组(n=37),2组患者均正常服用黛

期刊

焦虑抑郁共情护理共情能力

中东仍是地缘冲突的“风暴眼”

<正>中东,这个世界级"大油桶",却几乎每年都成为地缘冲突的"风暴眼",2017年也不例外。伊朗禁运、伊拉克库尔德公投、卡塔尔被"拉黑"、沙特重拳肃贪……中东地区局势似乎日趋

期刊

库尔德自治区风暴眼

苏德战争初期双方得失和苏军失利原因

本刊去年第二期发表刘郑同志的《苏德战争初期红军暂时失利的原因》一文后,引起了学术界的一些同志注意,并提出了不同看法。本着百花齐放、百家争鸣的精神,现发表刘士田同志

期刊

斯大林希特勒战争初期失利原因

自媒体环境下公众参与廉政建设问题研究

反腐倡廉建设历来都是党建工作的重中之重。十八大以来,习近平总书记更是站在关系党生死存亡的高度上重视反腐倡廉建设,坚决把反腐败斗争进行到底。当下,随着网络信息技术的

报纸

自媒体公众参与反腐倡廉建设

PARP-1缺陷在苯并芘致癌过程中的作用及其机制分析

目的聚（腺苷酸二磷酸核糖）多聚体可以在聚（腺苷酸二磷酸核糖）转移酶-1（poly（ADP-ribose）polymerase-1,PARP-1）的催化作用下与受体蛋白共价结合发生核糖基化,在聚（腺苷二磷酸核糖）水解酶

学位

苯并芘肺癌PARP-1EGFRUCH-L1

面向不平衡数据集的朴素贝叶斯文本分类算法改进研究

与本文相关的学术论文