多类别不平衡数据的分类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jianbin0703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题是数据挖掘领域的重要研究内容之一,传统分类方法是基于二元数据所设计,但大多数实际案例的数据都是多类别的,如网络异常检测、天气预报和石油污染检测等。多类别数据的分类问题相较二元分类问题概念更复杂,因此给传统分类方法的学习带来了新的挑战。实际应用的数据不仅存在类别多样化的问题,而且其类别间样本的分布也非常不平衡,当少数类样本过于稀少时,传统分类方法很难从中学习到有用信息,因而在最后进行分类判决时会倾向于多数类。所以说对多类别不平衡数据的分类方法进行研究十分具有必要性。分类框架是广泛应用于解决多类别不平衡数据分类问题的重要方法,将原问题分解成多个二分类问题后,再采取某种集成规则得到分类结果,其中涵盖了分解策略、不平衡二分类方法和集成规则三种关键技术,备受研究者们的广泛关注。但是分解框架中依然存在着一些不足,有效的二元分类器的构建比例会随着类别规模的增加而降低,从而严重影响整个多分类方法的分类性能。为解决上述问题,本文在引入核心簇和类间差异度的概念后,将多类别不平衡数据的分类问题映射到一张加权完全图中。在此基础上,提出了一种基于最大生成树的分解策略和基于结点度数的集成规则,选择出最优二元分类器组合的样本用以训练,从而降低不良二元分类器的构造率,然后再以结点度数为权重集成二元分类器返回的类预测值,从而平衡不同类别样本构造次数的不一致。为了验证提出方法的可行性,将本文提出的分解策略和集成规则与现有方法在4组不平衡集成学习方法和2组分类算法上进行对比,实验结果表明该方法能有效提升分类正确率。在优化分类框架的分解策略和集成规则的基础上,本文进一步对现有的不平衡数据二分类方法进行改进,在传统k最近邻算法中针对不平衡数据动态调整测试样本的k邻域,以提升少数类的参与概率。实验表明改进后的k最近邻算法能够在保持总体分类正确率不低的情况下提升少数类的分类正确率。
其他文献
目的:建立测定重组猪干扰素α成品中蛋白含量的反相高效液相色谱法(RP-HPLC),并进行验证。方法:应用RP-HPLC法测定重组猪干扰素α标准品及供试品的蛋白含量,并对方法的线性、
<正>开展机关作风建设最终落脚点是提高机关干部的思想素质,改进工作作风和工作方法,转变部门职能,提高服务效能。要按照“三个代表”重要思想的要求,以增强机关干部作风素质
会议
文物是过去时,但文物传递的精神文明却永远是进行时博物馆是一个高度浓缩的历史世界。对博物馆来说,收藏和保存文物的目的是要通过它讲述历史、传递精神和文化,而不只是为了
以淄博城市土壤为研究对象,应用统计学方法对土壤地球化学特征进行研究,采用单因子指数和尼梅罗综合指数法对土壤环境质量进行评价,同时采用Hakanson提出的潜在生态危害指数
摘 要 目的:分析61例胃癌在胃镜下的临床表现、肿瘤部位和性别、年龄特点。方法:收治经胃镜诊断及病理证实的胃癌患者61例,对其临床资料进行回顾性分析,对其好发部位、性别、年龄特点进行总结。结果:61例患者中男女比例为4.08:1,平均年龄为69岁,肿瘤好发部位依次为贲门38例(62.3%),胃窦19例(31.1%),胃体4例(6.6%)。结论:胃癌的发病率中胃底贲门癌的发病率最高,其次为胃窦,老年
目的:探讨通过改良氧疗法即应用鼻导管+面罩进行氧疗治疗麻醉手术后低氧血症的效果。方法:30例麻醉手术后低氧血症患者应用鼻导管+面罩进行氧疗,记录治疗前后血气分析的变化。结
观察心可舒片治疗冠心病的临床疗效。方法:收治冠心病患者70例,分成两组,治疗组38例,男20例,女18例,年龄40~60岁。对照组32例,男20例,女12例,年龄40~55岁。分别给予心可舒片3次/日,4粒/次口
目的:探讨新生儿单侧唇裂修复术的可行性及治疗要点及手术效果.方法:在静脉麻醉下对35例新生儿唇裂应用个体化单侧唇裂修复术.结果:手术麻醉安全,伤口愈合良好,术后效果满意.结
目的:带状疱疹是水痘病毒引起的急性、炎症性、神经性皮肤病,临床给予全身抗病毒治疗的同时局部以止痛、消炎、干燥收敛和防止继发性感染为原则。方法:收治带状疱疹患者60例,试用
当前,企业常用的一些成本计算方法并不能完全满足企业的要求。在这种情况下,作业成本法这一不同于传统成本计算的方法出现了。文章主要叙述了作业成本法在高新技术企业应用的