基于历史信息的数据流集成分类算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:soogler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流分类问题是数据挖掘领域的重点研究方向之一。伴随新基建时代的到来,数据的规模、形态都会发生变化,传统的静态数据逐渐向数据流转变,数据流将广泛存在并成为各个领域的主角。与传统静态数据相比较,数据流具有快速性、无限性、连续性、多变性等特征,同时数据流隐含噪声、存在概念漂移等问题,导致传统分类模型面对动态数据流问题难以适应。受到概念漂移的影响,数据流中的数据分布会不断变化,这为模型学习带来了挑战。但是,多种多样的数据分布蕴含了大量的数据信息,通过有效利用历史信息,引入集成思想的数据流分类算法可以检测和适应隐藏在数据流中的各种不同类型的概念漂移。本文致力于借助新集成学习策略解决数据流分类问题,通过改进算法选择、存储和利用历史信息的能力,来提升集成模型对抗概念漂移的能力,从而提高模型分类准确率。研究内容包括以下几个方面:1.为了有效的利用历史模型,提出了一种基于历史分类器二次学习的数据流分类算法。在该算法中,设计了一种二次学习的数据流集成规则,通过对历史分类器与当前数据块的残差训练模型,以降低错误信息对数据流集成模型的影响。同时,该算法综合考虑集成模型的准确率与多样性,采用了基于多样性的历史分类器更新策略,能够较好的保持集成模型的多样性。实验结果表明,该算法能够应对多种类型的概念漂移,在多种数据类型下具有较高的分类准确率。2.为了优化数据流集成模型的结构,提高数据流集成算法分类效率,提出了一种基于集成结构动态优化的数据流分类算法。在该算法中,引入了选择性集成的思想,通过聚类的方式选择作为基分类器的历史分类器,减少基分类器之间的相关性,压缩集成模型的规模,减少模型的时间、空间复杂度。另外,基于对历史模型的历史行为的分析,改进了已有的多样性历史分类器更新机制,获得更好的评价结果,有效的保证了集成模型的多样性。最后,通过对概念漂移进行检测,将集成模型的构建与概念漂移程度相适应,使算法更为灵活。实验结果表明,该算法在减少时间、空间消耗的同时提高了分类准确率,进一步提升了算法对多种类型概念漂移的对抗能力。3.针对前一个工作中存在的历史分类器的浪费问题,提出了一种基于历史分类器表征学习的数据流分类算法。在该算法中,借助深度森林算法中表征学习的思想,将分类器簇所得到的后验概率作为特征,进一步强化历史分类器的二次学习机制,避免了之前算法中历史分类器的浪费问题。实验结果表明,该算法具有更高的分类准确率,能够更好的适应多种类型的概念漂移数据集。
其他文献
和平历来是人类的美好愿望,也是国际政治所追求的目标,但是和平并不具有先验性,在人类的历史长河中,战争总是会打破人们宁静的生活。1648年三十年战争结束,威斯特伐利亚体系在欧洲确立,但是战争依旧未能退出历史舞台,在此后的数百年里战争频频发生,特别是在人类社会发展到二十世纪,两次世界大战先后在人类历史上留下了难以抹去的记忆。战争之后,最重要的就是构建一个和平的环境,交战国双方缔结和平条约是两国在战争结
随着航空航天器应用的不断拓展,时不变假设越来越难以满足实际工程结构的分析与设计要求,考虑工程结构的时变特性变得越来越重要。另外,主要基于压电式加速度传感器的传统的结构动力学测量手段也越来越难以满足航天器结构实时健康监测和模态参数在线辨识的需求。光纤布拉格光栅传感器相对于传统加速度传感器具有体积小、质量轻、可复用、不易受电磁干扰等特点,使其能够很好地适应航天器结构的在线测量和监测。本文研究了基于光纤
卡口图像车辆检索一直是智能交通领域研究的重要课题,随着图像处理和模式识别技术的不断发展,基于深度学习的车辆图像检索方法已经成为研究热点。车辆检索一般是指先从卡口拍摄的车辆图像中将目标车辆图像块检测出来,再对其进行相对应的车辆图像检索工作。本文对图像中的车辆检测车辆检索算法分别做了研究,主要针对卡口车辆图像检测和卡口图像车辆检索这两方面的准确率进行了改进,具体的研究工作如下:(1)描述了当前卡口车辆
认知无线电和雷达电子战的发展对提升复杂电磁环境中调制信号的识别能力提出了重要需求。在复杂频谱电磁环境下,只有充分感知和分析敌方电磁频谱资源的使用情况,才能有针对性地削弱非合作方雷达设备的使用效能,从而在电子战中处于制高点。但是,随着复杂体制雷达的出现,现有的调制识别技术已经不能广泛的适用于不同调制类型的信号识别框架。论文针对复杂电磁环境下雷达信号调制识别系统,围绕时频分析、图像融合和深度学习理论,
二次函数是初中数学的一个重要知识点,如果学不好二次函数,高中的数学学习也会受到影响。大部分学生对其学习效果并不理想,导致得分率屡屡较低。这就表明初中学生在二次函数学习板块存在较大的问题,若想获得高分突破难点,应找出学习过程中造成困难的实际原因。本文以西宁市第二中学九年级普通班与实验班为样本进行研究设计,明确此次研究的理论基础以及具体的研究方法,指明研究目的。同时对两个班级学习二次函数的现状进行问卷
非晶合金是采用快速冷凝技术得到的金属材料,不具有晶体金属长程有序的原子结构,在室温下表现出优异的物理和化学性能,具有广泛的应用前景。由于其硬度高、导热性差、宏观脆性等特点,在机械加工中表现为典型的难加工材料。学者虽然对非晶合金的机械加工做了许多研究,但非晶合金的加工技术仍然处于发展阶段。了解非晶合金切削时的材料变形特点和切屑形成过程对实际加工具有重要的指导意义。本文对非晶合金切削过程中切削力变化规
实用文体翻译的作用非常显著,不仅表现在人们的日常生活交际中,也表现在政治、经济、文化等各个领域中。尤其是随着中国文化影响力的不断增强,中国传统历史、文化领域的翻译
图遍历算法是一类典型的I/O密集型应用。在传统计算系统中,图遍历算法存在着大量的随机访存和数据移动。此外在多加速器图计算系统中,数据分布不均衡,计算单元间通信无序随机、无法预测,这些都给计算系统带来了巨大的通信开销。忆阻器ReRAM是一种新型非易失性存储器(Non-Volatile Memory,NVM),具有存储密度高、非易失性等特点,ReRAM crossbar结构能提供高效的访存。PIM(P
随着我国新型城镇化的持续推进,农业转移人口市民化成为研究热点。城乡二元制度、土地城镇化与人口城镇化的不协调、巨额的转移成本等都是阻碍市民化的重要原因。市民化成本、市民化成本分担机制是解决市民化进程的关键。近年来新疆根据当地经济社会发展水平和基本公共服务能力,实施差别化落户政策。将逐步实现全面放开建制镇和小城市落户限制,有序放开中等城市落户限制,合理确定大城市落户条件。有序推进义务教育、就业服务、社
本文从宏观和微观两个角度探讨了个体的词汇表征质量同阅读理解之间的关系。首先,作者通过纸笔测试和E-prime按键反应测试从宏观角度证明了个体词汇表征质量同篇章阅读理解的