基于自适应密度聚类的数据流半监督分类算法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:szxszxszy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今的大数据时代,海量数据通过各种硬件及软件源源不断生成,并具有高速、无限的特征,这些数据以流的形式生成并到来,同时这些数据的分布会随着自身或外界环境的改变而发生动态变化的现象,从而使得真实场景下的数据流具有概念漂移的特性。传统的数据挖掘的应用场景要求处理的数据是批量的且满足独立同分布的条件,所以传统的静态数据挖掘针对高速、无限且具有概念漂移的数据流变得不再适用,需要使用数据流挖掘技术来解决此问题。由于真实场景下数据流的标记样本大量缺失,数据流挖掘又面临着新的挑战即如何更好地对只带有少量标记样本的数据流进行分类。数据流在高速产生的过程中要标记所有的样本不切实际且费时费力,而大量未标记样本中也包含许多有价值的知识,一味地丢弃未标记样本会使得训练样本过少,训练得到的模型泛化能力不足,从而引入了半监督学习。概念漂移数据流在半监督场景下的分类问题面临着如下两个主要的挑战:(1)如何利用少量有标记样本和大量无标记样本训练一个泛化能力良好且能在线学习的分类模型;(2)如何在大量未标记样本环境下准确地进行概念漂移检测,以及时反映数据分布的改变,从而及时地调整分类模型以适应当前数据的分布,通过模型更新获得更好的分类准确率。综上考虑到半监督环境下概念漂移数据流分类问题的研究价值和带来的新的挑战,本文的研究内容总结为如下两个方面:第一,基于快速决策树的在线学习框架可以通过剪枝进行模型更新以适应概念漂移,同时考虑到数据流动态变化的特性。我们将自适应定位簇中心算法应用至快速决策树模型提出了SSCADP(Semi-supervised classification of data streams based on adaptive density peak clustering)算法。在分类阶段,样本通过决策树给出预测标记。在学习阶段,将分完类后的样本依次进行处理,样本落入至相应的叶子节点,每当达到一个检测周期对叶子节点中的样本调用自适应定位簇中心算法形成聚簇集合,并在每个簇中采用多数投票的方法给未标记样本打上标记。并对叶子节点进行概念漂移检测,如果检测到概念漂移则对模型进行剪枝,如果叶子节点中的样本达到指定的阈值,则基于霍夫丁不等式选择最优划分属性继续分裂叶子节点。对于概念漂移问题,利用高密度样本的变化更真实反映数据分布的改变这一条件,对SUN(Learning from concept drifting data streams with unlabeled data)算法中的判断簇间距离的变化幅度大小概念漂移检测方法进行了改进。大量的实验结果验证了SSCADP算法的优势。第二,传统监督环境下的概念漂移检测多以准确率作为衡量指标,半监督环境下大量未标记样本的出现给以准确率为指标的显式概念漂移检测带来了极大的不确定性,故本文考虑使用隐式适应概念漂移策略,提出S2CDTL(Semi-supervised classification of data stream with concept drift via transfer learning perspective)算法。算法动态维护一个分类集成池,使用聚簇分类器作为基分类器,聚簇分类器由第一个工作中提出的自适应定位簇中心算法训练得到。初始时刻,在第一个数据块上训练得到的分类器直接加入至集成池中进行初始化。当待分类的数据块到来时,利用上个数据块训练得到的分类器集成模型迁移过得分类器对其进行多数投票给出预测标记。模型迁移的具体策略为对前一个时刻的集成模型利用当前数据块中的样本进行增量更新达到隐式适应概念漂移的目的。当池中的分类器数量达到规定的阈值时,基于最大化多样性策略对集成模型进行更新。通过大量的对比实验表明,该算法在大部分数据集上都有较好的表现。
其他文献
随着物联网(Internet of Things,Io T)的不断发展,物联网应用逐渐进入人们的日常生活。物联网环境的复杂性、传感器种类多样性与物联网环境动态性等特点,使得物联网设备所收集到的数据种类较多,并且数据收集过程中由于各种原因导致终端设备数据缺失。缺失数据给物联网的数据挖掘、物联网应用等带来较大影响。因此,物联网环境下的不完全数据流填充问题,成为了一个重要的研究课题。本文主要针对物联网环
针对水下可见光MIMO信道相关性强导致系统信号检测性能差的问题,本文搭建了水下光成像MIMO-OFDM系统仿真模型,对光成像MIMO信道相关性以及基于格基约减的降低信道空间相关性算法进行了研究。由于光MIMO技术利用多径传输使系统获得分集增益或复用增益,当阵列规模增加时,MIMO信道具有较强的空间相关性,多个路径传输的光信号在接收端的叠加不可避免,接收端难以进行准确的数据恢复。因此本文将格基约减降
近年来,大规模在线开放课程(Massive Open Online Courses,MOOC)因其在高等教育领域中的灵活性和便捷性而受到广泛的关注,吸引了越来越多的教育者和学习者参与其中。然而正是因为这种灵活性和便捷性使得学习者更加容易辍课,高辍课率问题目前成为MOOC平台面临的一个巨大挑战。在已有的关于辍课预测问题的相关研究中,MOOC的辍课率高于90%。因此提出一种更可靠,更高效的辍课预测模型
无人机具有体积小、机动性强、隐蔽性好等优点,使得其特别适合于雷达侦察。雷达信号分选作为雷达侦察的关键技术,对截获的雷达脉冲序列去交错,为雷达识别、定位和威胁评估等提供基础。但是电磁环境的复杂化和单接收机侦察性能的局限性给雷达信号分选技术带来了困难,仅使用单个侦察接收机截获并独立分选雷达信号难以满足现代战场信号分选需求,因此研究多接收机协同侦察背景下的雷达信号分选技术具有重要战略意义。本文在多站雷达
移动互联网已经深入我们的生活,为我们提供了各种基于位置的服务,但传统的卫星导航只能在室外环境提供可靠的服务,而人们一天中绝大部分的时间都在室内环境中度过,使得市场上对于提供可靠、精确、低成本的室内定位服务的需求持续增长。自然环境中充斥着各种各样的声音,我们可以随时随地获取这些包含丰富信息的声音,而从不同场景或不同区域获取的声音,其相同类型的声学特征或声学指纹之间必定存在一定差异,通过计算机分析声学
由于毫米波具有能够实现穿透性检测以及全天候工作的优点,使得毫米波成像在相关成像领域成为不可替代的方案。在安检成像中,毫米波能够穿透衣物对潜在的危险品进行成像,并且不会产生电离辐射;在辅助驾驶场景中,毫米波能够适应恶劣天气且不受光照强度影响,为车辆行驶安全提供保障。随着毫米波雷达设计水平和生产工艺的提升,雷达系统的精度和集成度也越来越高,为毫米波成像技术研究及应用提供了便利。本文以77GHz频段调频
能源和环境是当前制约交通运输业发展的重要因素,燃油高、污染大的重型商用车的新能源化势在必行,氢燃料电池作为一种燃料可再生的绿色车载驱动装置,对缓解当下能源窘境具有重要的意义。本文以配备燃料电池和蓄电池的燃料电池混合动力商用车为研究对象,通过仿真分析的方法,研究车辆动力系统关键参数整定、能量源选型以及能量管理策略三方面的内容,论文的主要结构如下:(1)以一款燃料电池商用车基本参数为依据,建立车辆动力
目前基于GNSS/SINS组合导航的无人机室外导航飞行已经日趋成熟且得到大规模应用,但是在卫星导航信号微弱的室内环境依然难以对无人机精确定位。针对这一问题,研究了超宽带(UWB)与光流融合的无人机室内定位方式。本文从无人机基本理论、光流定位算法及其改进、UWB定位技术、UWB与光流融合方法等几个方面进行了研究,并设计了无人机室内定位软硬件系统,进行了多项实验验证。无人机采用四元数法进行姿态解算,并
近几年,随着我国现代化进程的快速发展,汽车拥有量逐年增加。降低交通事故的发生率,保障人们的生命财产的安全,成为全世界各大汽车厂商实现智能驾驶技术追求的目标。低复杂度高性能道路交通目标检测和跟踪技术是智能驾驶技术应用的关键,目前基于雷达传感器的环境感知设备复杂度较高,价格昂贵,不利于大规模普及,且难以提供交通场景的语义信息。而基于视觉的传感器成本低廉,可以提供丰富的环境语义信息。因此,研究基于视觉传
具有控制力矩陀螺的两轮车机器人是一种结合普通自行车和Segway两轮车为一体的运动机器人。这种两轮车机器人既可以变成自行车,也可以变成Segway两轮车。在机械结构上,机器人引入了一对控制力矩陀螺,用于调节机器人的运动平衡。这种两轮车机器人能够在自行车和Segway两轮车两种状态之间实现任意切换,因此可以适应于宽窄不同的道路,可以非常好的应用于快递运输、仓库物流等行业。本文以具有控制力矩陀螺的两轮