数据流的概念漂移检测和集成分类方法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:llllgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,各个领域每天都在生成海量数据。面对爆炸式增长的数据,传统的数据挖掘已经难以胜任当前的数据流环境。如何快速从数据流中挖掘出价值信息成了数据挖掘领域的研究方向之一。与传统的静态数据相比,数据流具有有序性、高维性、高速性、动态变化性以及数据规模庞大等特点,尤其在现实场景还存在着概念漂移、数据流标签信息难以获得等问题,使得已有的分类算法无法有较好的效果。因此,在数据流的环境下,对概念漂移进行检测及其分类方法研究有着巨大的价值。针对数据流中的概念漂移问题以及样本类标签缺失问题,本文结合分类器的间隔密度和Mcdiarmid不等式提出了一种新的概念漂移检测算法。算法基于集成分类器中各组件之间的多样性和差异性,提出了间隔密度来替代分类器的错误率。然后对不同时刻滑动窗口内的间隔密度进行差异度量。随后使用Mcdiarmid不等式对差异值进行假设检验,如果出现显著差异则意味着产生了概念漂移。通过对比实验来验证本文提出算法的性能,结果显示,该算法针对不同类型的概念漂移下,具有较低的延迟、漏报和误报,并且在和分类器相结合后,有效提高了分类器的准确性。基于所提出的概念漂移检测算法,并结合集成分类器的思想,提出了一种新的基于信息熵更新权重的数据流集成分类算法。在样本数据标签缺少的情况下,算法利用信息熵信息来对基分类器的权重进行动态加权。还使用概念漂移检测器和结合基于数据块和在线学习的处理机制来快速适应不稳定的数据流。通过对比实验表明,本文提出的算法在有概念漂移的数据流中取得较好的分类效果。
其他文献
Sirtuins(SIRTs)是一类NAD+依赖的赖氨酸ε-N去酰基化酶,包含SIRT1-SIRT7七个亚型。与SIRTs家族其他成员相比,SIRT5因结构中包含特异性精氨酸Arg105和酪氨酸Tyr102,具有较强的去琥珀酰化、去戊二酰化和去丙二酰化等酸性酰基化活性,且催化效率约为去乙酰化的上千倍。SIRT5主要位于线粒体,可催化多种代谢相关酶的去酰化作用,从而参与三羧酸循环、糖酵解、脂肪酸β-
学位
β-内酰胺类抗生素因杀菌活性强、毒性低、适应症广及临床疗效好等优点,在临床广泛使用。然而,随着细菌对该类药物的耐药性不断增加,已严重影响了此类药物的疗效。致病菌产生的丝氨酸β-内酰胺酶(SBL)和金属β-内酰胺酶(MBL)可水解抗生素化学结构中四元β-内酰胺环,破坏抗生素关键药效团结构,从而使抗生素失效,是β-内酰胺类抗生素最主要的耐药机制。β-内酰胺酶抑制剂(BLI)与β-内酰胺类抗生素联用是克
学位
为了提高低透气性煤层瓦斯渗透率和瓦斯抽采效果,利用模拟软件计算了煤层水力压裂孔径和地应力对压裂效果的影响,并进行了工程试验。模拟结果表明,大压裂孔孔径对压裂效果起到促进作用,高地应力对压裂效果起到抑制作用;现场试验结果表明,在煤层中实施水力压裂增透技术后,钻孔瓦斯涌出量衰减度降低了67.65%,煤层透气性提高了30多倍,表明在低透气性煤层中实施水力压裂增透技术能大幅度提高煤层瓦斯抽采效果。
期刊
“双减”政策的实施是要在保证课堂教学效率、提高作业设计质量的前提下,为学生减轻课堂学习压力和课后作业负担。作业是语文教学的重要组成部分,可以帮助学生初探新知,作业也是教师即时检验课堂教学成效、完善课堂教学策略的主要手段,作业更是提高学生综合素养的重要途径。优化小学语文作业设计就是对语文作业进行优化创新,使其成为与“双减”政策相适应的新型作业模式。教师需要做好作业设计工作,关注教学重点,关注过程性评
期刊
随着机器学习领域关键技术的突破,基于机器学习的系统被广泛部署于多种应用场景中。然而,一些最新的研究指出,机器学习模型的训练数据易被污染:攻击者通过将精心设计的中毒数据注入目标模型的训练集,可使机器学习模型的性能大幅下降,甚至可在系统中创建隐蔽的后门。本文研究了机器学习模型训练数据所面临的安全性问题,即中毒攻击和后门攻击,其均可通过训练数据中毒的方式来实施。本文具体的研究内容和贡献如下:1)本文针对
学位
川芎挥发油为中药川芎(Ligusticum chuanxiong Hort.)根茎所提取的具有芳香气味的油状液体,具有解热镇痛、抗炎、抑菌等药理活性,一些研究表明其在美白护肤方面也存在潜力。美白护肤品一般直接涂抹于皮肤表面,要求其中的活性成分能在皮肤上停留较长时间,并渗透进入皮肤内发挥作用。但川芎挥发油易氧化、稳定性差,且挥发性强,直接涂抹于皮肤表面易蒸发散失。因此,开发川芎挥发油护肤品,有必要通
学位
作为许多计算机视觉研究的基础,对场景中的平面进行提取是一个十分基础同时也非常重要的部分,极大地影响了整体研究的最终结果。但是在数据获取的过程中,由于传感器性能有限,场景内容较为复杂,简单的算法对于平面结构的提取难以产生有效地结果。近年来,国内外的许多学者对平面检测算法进行了深入的研究,但是大多只能针对单帧的图像进行平面提取,不能良好的利用多帧图像之间平面的对应关系。同时由于算法性能的限制,过去的方
学位
无人机已经在军用和民用领域得到了广泛应用,然而单架无人机存在能力受限、生存率低和完成任务概率低等缺陷,无法保证完成重要任务或作战效能有限。为此,需要采用多无人机协同应用技术来提升无人机系统的成本效率、扩展性和生存性,减少完成任务的时间。智能电网的发展非常迅速,但是电力系统会受到环境腐蚀以及内部难控因素的影响,需要进行严密监控和维护。无人机提供了近距离成像和悬停的能力,只需借助摄像头和各种传感器,便
学位
期刊
随着“中国制造2025”战略的提出,制造业将深度融合信息技术和物联网技术,实现传统制造到智能制造的转型升级。车间是实现智能制造的基本单位,车间物联网设备采集的海量数据中存在高度冗余、数据质量低下及高并发的数据处理不及时会导致车间信息不对称等问题。本文根据车间制造实时性数据处理需求,从车间冗余数据的清除和实时处理框架优化两个关键技术出发,设计并实现了车间高并发数据处理系统。本文主要研究内容如下:(1
学位