面向概念漂移数据流挖掘的新异类检测与分类方法研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:NewComeMan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据流挖掘技术受到了许多学者的关注,然而,传统的数据流挖掘技术在处理概念漂移、概念进化等方面仍存在亟待进一步解决的问题。因此,本文面向概念漂移数据流数据挖掘提出了一种改进性的新异类检测及分类算法,着重研究了基于数据流特征空间转换的数据流分类方法。本文主要研究工作和成果如下:1、对2000-2016年间概念漂移数据流分类算法主要成果进行了综述分析,并分类进行了实验对比研究,总结了不同类别的数据流分类算法之间的性能差异,指出了现有概念漂移数据流分类算法存在的主要问题及改进方向。2、研究提出了一种基于马氏距离改进的概念漂移数据流新异类检测及分类算法C&NCBM(1)。该算法通过引入马氏距作为相似性度量,考虑了样本属性间的相关性,关注变量细微变化的作用,可以有效的检测概念漂移数据流中出现的新异类并标记,随后更新分类模型以适应数据流的变化提升算法的准确率。在人工数据集和UCI数据集上分别进行了算法分类性能以及概念漂移处理的对比实验,实验结果表明,C&NCBM算法在提升数据流分类准确率方面是有效的,分类准确率得到了提高,且能较好的处理数据流中的概念漂移。3、研究提出了基于ReliefF特征空间局部无损转换数据流分类算法LLHCCR(2),该算法对特征空间设定阈值,若超过限定阈值则使用ReliefF对特征属性进行筛选,否则使用特征空间无损转换方法。本方法降低了现有特征空间无损转换维度灾难的可能性,同时保证了算法的分类准确度,且显著减低了算法的分类时间。在人工数据集和UCI数据集上分别进行了算法分类性能以及概念漂移处理的对比实验,实验结果表明所提出的LLHCCR算法是有效可行的,在分类准确率、分类评估时间方面得到了有效改善,同时具备处理数据流概念漂移的能力。本文研究贡献:综述总结了2000-2016年间概念漂移数据流分类算法主要成果并进行了实验比较研究;从特征空间转换、新异类检测等方面对传统数据流分类算法进行了优化改进,实验结果表明,优化所提出算法是有效可行的。
其他文献
近年来,我国海岛旅游得到了较快发展,伴随而来的是海岛生态环境遭受严重破坏,但能够有效调节海岛旅游开发与生态环境保护的政策体系尚未建立,由海岛旅游开发给海岛生态带来的损失
目的:本论文旨在通过实验研究,观察补肾促排卵系列方对雄激素致排卵障碍大鼠卵巢组织形态学变化,并从肿瘤坏死因子(TNF-ɑ),表皮生长因子(EGF),转化生长因子(TGF-1),白介素-1(IL-1)方面
分析了电厂FCS(现场控制系统)技术应用背景,阐述了该技术的原理和设计原则,结合西门子公司T3000 DCS控制系统在现场总线控制方面的实际应用和工程经验,论述了现场总线在分布
樋口一叶,女,原名樋口夏子,是大正20年涌现出来的日本著名小说家。生于1872年,1896年因病去世,仅活了24岁,是日本近代文学史上的一位才华横溢、夭折过早的女作家。所以吕元明先生在
十六大以来,我国城乡居民收入已经实现了连续十年快速增长,成为历史上增长最快的时期。党的"十八大"又明确提出了到2020年我国要实现城乡居民收入比2010年翻一番的目标,这为
对于大多数学习英语的学生来说,记单词是学好英语道路上的拦路虎。这个拦路虎使得他们的英语无法入门,进而失去英语学习兴趣。创设情景,巧记英语单词,可以帮助学生英语入门。
互联网中存在着大量经过编辑修改的相似或部分相似图像。应用图像搜索技术,用户只需要提供一幅图像或其部分区域,即可快速检索到大量相似或部分相似图像,进而开展其他相关应
在沙漠的行进让人对伟大女性作者三毛的剖析有了更加深刻的体会。“流浪者”三毛不仅是沙漠的临时居民,更是尘世的旅人,看到爱与希望后,珍惜地回归另一个世界。 The march i
中国的老旧社区多为依托主导产业在产业发展片区周边形成的,为产业区就业人口及其家庭提供居住、生活和公共服务的社区,是见证城市发展和经济繁荣的具有历史意义的社区,对城