基于集成学习的数据流分类算法研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:ie8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、传感器网络、数据通信技术的不断发展成熟,各行各业都产生了大量的数据,对于大数据挖掘技术的需求也越来越迫切。在众多应用场景中,数据都是陆续到来、数量无限且随时间变化的,学术界将这种数据形态定义为“数据流”,数据流挖掘技术因其较高的应用价值,在学术界掀起了广泛的研究热潮,本文研究的数据流分类就是其重要的分支。不同于静态数据集,动态变化的数据流中可能会伴随着概念漂移和新标签问题,严重影响了分类器的精度。在深入研究数据流的特征和分类技术后,了解到基于集成学习的分类算法都具有较好的稳定性。因此,本文改进现有的集成方法来解决上述两个问题,提升分类器的性能,创新点如下:首先,本文提出了一种基于集成学习的分布式概念漂移数据流分类模型。该模型是动态基分类器和稳定基分类器的组合形式,两种分类器数目相同,通过动态赋予的权值共同参与集成分类器的决策。稳定分类器在部署到数据流之前就训练完毕,通过不断增量更新来跟踪数据流长期分布趋势,可以适应渐变漂移;动态基分类器在最新的数据块上创建,可以及时捕获突变漂移。为了提高分类器的训练和更新效果,本文基于主动学习的思想,提出一种实例选取策略,选取最有价值的实例来赋予真实标签。同时,考虑到实际场景中的数据流都是分布式的,本文基于微簇的思想设计了一个分布式框架及对应的挖掘算法,中心节点完成数据流的分类任务。实验部分,将本文算法与其他数据流分类算法进行比较,从实时准确率、整个分类过程的平均准确率以及内存消耗三个角度来实施实验,结果表明本文的算法在稳定性、分类精度及资源消耗方面都有着良好的表现。其次,本文提出了基于孤立森林的数据流中新标签的发现算法。目前的检测算法都是将新标签当成异常点来建模,当数据流中同时存在异常样本和新标签样本时,这些方法将不再适用,因此需要区分这两个类别才能准确地识别出新标签。本文提出的解决方法是先基于孤立森林这一集成异常检测算法来划分正常区域和异常区域,在异常区域,新标签和已知类的异常样本可以通过偏离程度值的大小来区分。检测到的新标签样本会暂时存放到设置的缓冲区里,然后通过所提出的过滤算法来保障新标签检测结果的准确性。实验部分,本文通过调整不同阶段的实例类别来模拟新标签的生成,分别从F-measure和准确率的角度来评估算法的性能。结果表明,与其他同类型的算法相比,本文算法具有更好的检测效果。
其他文献
图像作为日常生活中重要的信息传播载体,其清晰度直接决定人们能否准确地从中获取有用的信息。由于成像系统和设备的不完善,以及光照等外界因素的影响,数字图像在形成、传输和存储过程中都会引入不同类型的噪声,造成图像信息丢失。随着卷积神经网络在图像处理领域的快速发展,基于卷积神经网络的合成噪声去噪算法无法满足真实噪声图像去噪的需求,实用性不足,且复杂的网络模型亦无法满足高效处理的需求。针对以上问题,本文主要
学位
集成电路产业已经成为世界强国的国家战略,芯片制造的关键技术和设备被少数欧美发达国家垄断。特别在射频、微波芯片封装中,键合金丝的拱高、跨度等参数对微波传输特性的影响很大,而这些参数的自动检测设备目前还依赖进口,为了打破技术封锁,弥补相关领域的研究空缺,本文针对实现键合金丝拱高和跨度的微米级测量技术展开了研究,具体内容如下:首先,设计并搭建了键合金丝拱高和跨度的图像采集、处理和实验平台。采用嵌入式方案
学位
气体检测是预防各类安全事故发生的重要手段。在日常生活、工业生产中往往会产生大量可燃易爆、有毒有害的气体,若发生泄漏不能及时发现并采取相应措施,将对长期生活、工作其中人员的身体健康带来极大安全隐患。同时,此类气体若积累到一定浓度,极易发生爆炸事故并将带来灾难性的后果。多年以来,此类安全事故层出不穷。因此如何快速、准确实现对泄漏气体的检测,具有广泛的应用价值。本文提出了一种采用传感器阵列与模式识别算法
学位
基于深度学习的车辆重识别旨在利用车辆外观特征在大型图库中检索目标车辆,实现车辆追踪,是智慧交通系统的一项核心技术。随着人工智能和大数据技术的发展,该技术在嫌疑追踪、无人停车场管理、智慧物流和自动驾驶等领域具有广泛应用,尤其是在当车牌被遮挡、移除、破坏等情况下,该技术发挥了巨大作用。由于车辆图像是由不同的摄像机拍摄得到,拍摄时光照、视角、分辨率等条件各不相同,导致车辆重识别面临着类间差异小、类内差异
学位
目前,通信技术的相关应用已经广泛的服务于人们的生产生活,而无线系统的资源优化技术又是通信领域的研究重点。相较于传统的蜂窝系统,超密集网络拥有更丰富的基站资源,可以为用户终端提供更高质量的服务体验。然而,密集部署的基站不仅带来了严重的小区间干扰,而且容易导致基站出现空载或过载现象。此外,通信环境的参数瞬息万变使得传统功率分配算法难以在实时场景中应用推广。本文针对上述问题进行了研究,提出了超密集无线网
学位
随着网络技术的快速发展和图像获取设备的日益普及,丰富多彩的数字图像成为传递信息的重要媒介。虽然数字图像给人们生活带来便利,其背后也潜藏着安全隐患。因此,如何保护好数字图像的完整性和真实性,是数字图像取证领域将要面对的巨大挑战。尤其是近几年GAN在图像领域取得的巨大成功,其生成的能够以假乱真的高清图像更是引起了相关领域各位专家学者的高度关注。挖掘自然图像与GAN生成图像之间存在的差异进而精准高效地鉴
学位
终端直通(Device-to-Device,D2D)通信可以不通过基站转发,建立直接通信链路,实现用户的信息交互。D2D用户以复用模式工作,能有效减轻基站负荷,提升系统吞吐量,但同时也会产生同频干扰问题。此外,引入中继技术,可有效解决D2D对无法直接通信的难题。因此,本文针对同频干扰和中继选择问题,对D2D对的信道分配、中继选择和功率控制进行研究,主要内容包括:(1)针对信道分配中,多个D2D对复
学位
Deepfake伪造人脸对信息的可信度、可靠性和安全性构成了极大的威胁。不法分子利用人脸交换技术生成伪造图像和视频误导群众,造成了不良影响,甚至引发恐慌。为了抵制虚假信息的传播,Deepfake检测技术受到广泛关注。现有的视频检测方法为避免数据冗余、节约计算资源,大多是随机选取视频的多帧或部分段作为检测对象。然而,这种选择策略会降低检测对象的表征能力,性能也会受到限制。因此我们提出了一种用关键帧代
学位
由于中国不同地区气候的多样性,准确的气象监测有助于国家防灾减灾,其中,降雨和水汽监测在气候研究领域占有重要地位。目前,毫米波链路测量降雨和水汽成为新的监测技术,可以为气象监测提供高精度的数据。该研究利用搭建在中国南京市与河北香河县的E波段毫米波测试链路采集数据,通过气象要素与毫米波衰减的关系计算出降雨强度和水汽密度,然后将研究结果与实测值对比分析。主要研究内容包括:(1)分析了微波链路监测降雨和水
学位
在大数据时代,公司和机构已经注意到多维数据的巨大价值,并且极力地收集高维众包数据以做出数据驱动的决策。然而,这些多维数据往往包含着数据拥有者的敏感信息,如果数据拥有者直接分享自己的多维数据,则会引起隐私泄露的问题。近年来,本地差分隐私被发现在收集和使用数据拥有者的数据并保护其隐私方面有实用价值。在本地差分隐私方案中,数据拥有者在数据外包前会先对其进行扰动,然后将扰动后的数据发送给服务器。如此,服务
学位