非平稳数据流的概念漂移检测及其分类

被引量 : 0次 | 上传用户:afei137
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,人们越发察觉到信息的重要性并开始以各种方式搜寻“黄金”般的信息,其中最为突出也最为准确的是从数据中得到信息。而收集数据的源头之多、不完整性以及数据特征急剧膨胀,特别是数据流的出现,数据的存储管理和数据分析出现了前所未有的困境。人们对数据中信息的渴求与目前落后数据存储管理与挖掘技术的矛盾愈来愈烈,常常出现“望数兴叹”的场景。这种存在概念漂移、大量噪声数据以及分布不均衡的数据流称为非平稳流,本文针对非平稳数据流的概念漂移及其分类问题进行分析研究。首先对数据流挖掘的背景和意义及分类问题所面临的挑战进行阐述:同时详细地对目前存在的概念漂移应对方法从检测和处理的角度进行总结和概述;不同侧面地对数据流分类问题从单分类器和集成分类器进行探讨;并归结当前概念漂移检测和处理及数据流分类方法存在的问题,从而提出本文研究的突破点。提出了基于鞅的数据流概念漂移检测方法(CDDBM),该方法是在研究了前人学者们从数据分布角度对概念漂移检测的方法后,在统计学鞅理论的基础上归纳出了鞅检测概念漂移的原理。该方法认为概念漂移的发生不仅是因为数据簇中心的变化,其半径变化也会引起概念漂移,从而重定义了数据的相异度量的方法,并提出双重幂鞅更为全面的统计方法,另外对合理控制概念漂移积累的阈值进行和检测窗口尺寸,使得该方法在理论上和实验中都取得了良好的效果,有效控制了误报率和失报率。提出了基于特征漂移的数据流无监督集成分类方法(ECFD),该方法在不同数据特征对数据分类具有不同贡献度的基础上给出了特征漂移概念及其与概念漂移的关系,从而能够更好地对大数据流进行分类并构建更为有效的分类器。首先利用互信息理论为数据流定制了一种特征选择方法(UFF)并利用前后关键特征子集得不同判定概念漂移的发生;然后在特征数据集上建立基础分类器并集成;最后提出了一种修改偏置性的加权方法进行投票分类。在理论分析和实验结果中都显示了该方法具有良好的精度、运行速度和抗噪性。
其他文献
徐霞客是我国古代游记文学的代表人物,他所著的《徐霞客游记》展现了写真景抒真情的美学特质,视山水为人生之归依、生命之寄托,重视山水内蕴、生命意趣,将山水审美化、意趣化,重在体现山水的意境和趣味,展现了探险穷奇、敢捐生命、乐观豁达的山水审美境界。本论文主要分为绪论、正文和结语三个部分。绪论主要介绍了我国目前对于徐霞客、《徐霞客游记》的研究成果以及在其山水审美意识研究上存在的不足之处。正文则分为三个部分
目的观察骨髓间充质干细胞(bone marrow mesenchymal stem cells)移植后慢性脑缺血大鼠海马区Cdc42(cell division cycle protein)的变化及其对慢性脑缺血大鼠认知功能的影响
随着交通运输事业的快速发展和桥梁使用年限的增加,在役的预应力混凝土连续箱梁桥普遍存在抗剪承载能力不足、腹板出现斜向开裂的现象,维修加固问题日益突出。聚乙烯醇纤维增
合作学习是目前世界上很多国家都普遍公认和采用的一种促进学生个体学习的有效策略和学习方法,而“对话”是沟通合作的纽带。以合作学习中学生对话为切入点,对对话行为的理论
随着时代的发展,我们现在社会正面临着一场最重要的信息化革命,使科学技术能得到全方面的发展。互联网信息技术高速发展使人类文明进步。中国是一个注重科技发展的国家,国内
瘢痕疙瘩是皮肤受到创伤后局部胶原超常增生与沉积形成的团块,并不断扩大,多伴有明显的疼痛、瘙痒症状。目前对瘢痕疙瘩单纯手术切除极易复发,且由于手术刺激可使病变进一步
政法机关经费保障问题是我国司法体制改革的重要内容,近年来,随着改革进程不断深入推进,政法机关经费保障水平得到明显提升,但随之存在的问题也日益突出。为进一步提高政法经
随着改革开放的大潮,我国逐渐放开了对于人口迁徙的严格限制。大量中西部地区的人们开始纷纷涌入东南沿海发达地区,但由于我国目前还存在比较严格的户籍制度,那些打工者并不
中国的智慧城市建设与国际先进城市比在理念、方法和路径上还存在着明显的差距,面对互联网+的发展背景,智慧城市建设应在理念、顶层设计、实践路径等方面进行变革与创新,以互
<正>教学设计题目:《努力才会有收获》教材版本:小学教科版《品德与生活》二年级下册活动目标:1、引导学生心中有目标,有愿望,充满希望和信心地过好每一天。2、通过听故事和
会议