基于聚类融合的不平衡数据分类研究及其应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:xp1308729
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着数据采集、数据存储等技术的不断进步,各个行业的数据呈现出爆炸式增长。同时,数据的类型也呈现出多样化发展,其中不平衡数据就是一类目前广泛存在,并出现在许多领域的数据类型,如出现在医学上的疾病诊断、网络上的防入侵系统,文本分类等方面。在不平衡数据类型中少数类具有很高的研究价值,通常是人们研究的重点。  传统的分类算法由于更加关注数据整体的分类效果,而由于多数类的数量较多,导致算法对于多数类的分类效果较好,而对于少数类的分类性能普遍不高。但在实际应用中少数类通常是我们关注的焦点,对于分类结果起着关键作用。  针对这种情况,论文具体分析了传统分类算法对于少数类数据分类精度不高的原因,并以k-means算法为基础,提出了基于聚类融合的REKM算法,以改善不平衡数据集的不平衡程度。之后将该算法结合随机森林分类算法,提出了REKM-RF算法,用于不平衡数据的分类。  通过对UCI数据上的实验表明,不平衡数据集经REKM算法处理后,随机森林算法对于数据集少数类的分类效果和数据集的整体分类效果都有一定程度的提高。之后将REKM-RF算法应用于原发性肺癌患者术后生存率的预测。结果显示,与不平衡数据集直接进行分类相比,REKM-RF算法的召回率和F值分别提高了42%和23%;与数据集先进行随机欠抽样处理再进行分类相比,REKM-RF算法的召回率和F值分别提高了40%和20%。最后利用REKM-RF算法分析了原发性肺癌患者术前影响因子,为患者术后预防与治疗提供借鉴作用。
其他文献
很多兰花生长在一些其他植物难以生长的特殊生境中。兰花种子能在这些特殊生境中萌发和生长,是因为依靠真菌的帮助。 Many orchids grow in special habitats that are diff
基于模块化设计思想,建立计算机数控系统软、硬件的功能模块研制模式及原型系统。借助于计算机众多的最新成果,探讨以通用模块方式柔性组合为开放型 C N C 系统的实现方法,以 寻求
随着工业化进程步伐的加快,对化工产品的需求量也相应提高,但危化品一般都是具有危害性的物品,若引发事故将会给社会和人们造成巨大的损失。据统计,危化品事故多发生在物流过程,因
《2004年北京技术市场统计公报》是依据科技部《全国技术市场统计调查方案》、《北京市技术市场条例》和《北京市技术市场统计管理办法》等相关法律、法规、文件,由北京技术
“全学习”理念下的课堂教学尤其重视优质问题的挖掘与呈现,心仪巧妙且科学的提问方式与技巧。  过去以“教师”为主体的课堂行为,教师处于绝对权威地位,学生失去了主动和自主学习的权利和意愿。课堂不是以思维性“问题”为主线,而是跟着教师的讲授学习知识,听不明白的即是课堂“问题”。  而以“学生”为主体的课堂行为,尝试以学生学习与成果展示為主,甚至让学生走上讲台主持课堂教学,教师走下讲台,做学生的帮助者。 
期刊
为了有效地观测我国能源-经济-环境系统的发展水平与趋势,针对系统各指标间的关系错综复杂,本文提出一种基于灰色关联度分析和TOPSIS法的综合评价模型。根据该模型与灰色预测
随着全球化的科技发展,国家之间的竞争逐渐转换成科学技术之间的竞争,尤其是对技术和知识等资源占有的竞争。由于我国资源配置不合理、资源投入有限,使得在科技资源的使用中布局
库存管理是日常生产的重要环节,尤其对生产型企业而言。不合理的物料分类和管控造成了企业库存的积压,不仅占用了大量的资金增加了库存管理的成本,而且难以保证订单的准时履
摘 要:  学生在材料作文中经常会出现审题失误,其中有些失误已经不是阅读能力和审题方法的问题,而是人生观、价值观出现了偏差。重组高中选修“《论语》选读”教学单元,以“仁义礼智信”等儒家传统道德重塑学生的人生观、价值观,对学生进行思想教育,能够增强学生的历史使命感和社会责任感。   [关键词 ] 《论语》;写作教学;立德树人  一、作文审题立意不仅仅是“术”的问题  面对当前高考材料作文一统天下的趋
在一定时间内,围绕特定主题,整合各个学科,实施融合式学习,以引导生命浸润性、广延性生长,即我理解的项目式学习。项目式学习的设计,不必另起炉灶,与学生的日常活动、学习生活融合即好,比如春节、端午节、植树节等节日主题,学校或班级开展的研学活动,教材主题单元外延或内展式活动等,让孩子在实践性、体验式、结构化、多样化的学习方式中弹性生长。  一、借一个项目,探五千年文化  五千年文博园是一个以五千年中华文
期刊