面向大规模高维数据的交互信息瓶颈聚类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:cairing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的快速发展以及互联网技术的不断提升,导致许多行业产生的数据样本呈指数级别增长,数据维度也在不断攀升。受“数据爆炸”、“维度灾难”的影响,传统的聚类算法在面向大规模高维数据时难以取得预期的结果。因此,根据数据在实际应用中的要求以及不同领域的特点,构造高效的大规模高维数据聚类算法具有重要的理论意义和应用价值。面向大规模高维数据的聚类分析,联合聚类算法同时对数据对象和特征进行聚类,揭示了二者之间的内在关系,整合了数据的整体信息,并利用互相之间的相关性促进对数据对象和特征的聚类性能。现有的联合聚类算法考虑通过降维的方式消除冗余或噪声,但依旧会将原始的冗余或噪声特征融入到数据的聚类过程中,从而削弱最终的聚类效果。针对上述问题,本文受联合聚类算法思想的启发,基于信息瓶颈理论提出了一种交互式信息瓶颈(Interactive Information Bottleneck,I~2B)聚类算法。与现有联合聚类算法相比,I~2B算法只考虑利用降维特征变量的信息保留对行方向的数据进行聚类,在列方向上则借助数据压缩变量的信息保留用于特征聚类,并通过交互迭代过程得到最终的聚类结果。该方法的优势在于:(1)能够获得有效的判别特征,同时消除冗余或噪声特征,这有利于每次迭代后的数据聚类;(2)聚类后的数据对象可以作为监督信息引导特征的聚类。据我们所知,这是第一个以该方式解决此类问题的方法。最后,本文设计了一种新的双重交互式“抽取-合并”方法,该优化算法的时间复杂度与数据的规模和维度线性相关,能够高效的处理大规模高维数据。实验结果表明:I~2B算法的算法性能优于原IB算法以及其他传统聚类算法;相对于最新的面向大规模高维数据的聚类算法,I~2B算法也取得了更好的稳定性以及较高的聚类精度。
其他文献
数字图像作为一种非常重要的信息载体,已经成为了生活中不可分割的一部分。但是,随着信息技术的发展和数字图像处理技术的不断提高,篡改图像大量地充斥互联网和各类媒体。篡
随着人工智能被越来越多的国家上升为国家战略,不管是在战略规划上,还是在经济政策中,不管是在学术理论上,还是在企业研发中,与人工智能相关的一系列词汇和产品开始频繁出现
计算机视觉是人工智能领域里的一个重要的分支,图像识别是计算机视觉领域中的重要研究方向。近年来随着深度学习技术的快速发展,图像识别技术也有明显的进步。从早期的Alex N
非扫描主动成像的盖革模式APD面阵激光雷达具有成像速度快、探测距离远、探测灵敏度高等特点,适用于实时性要求较高的小型化目标探测系统。由于此激光雷达获取的原始距离像信噪比较低,因此需经过多帧累积算法的计算,生成信噪比较高的距离像和强度像,为后续目标识别等任务提供更有效的探测信息。而为保证探测系统的实时性,有必要设计专用硬件电路实现对此多帧累积算法的加速计算。本文设计了一种数据通过率和接口带宽利用率较
目标追踪一直是计算机视觉领域的一个重要课题,在视频监控、航空探测、人机交互等领域有着广泛的应用前景。尽管不断有新的目标追踪算法被提出,但是由于目标运动过程中会受到光照、姿态和尺度变化以及遮挡等一系列不确定因素的干扰,因此研究设计实现高效鲁棒的追踪算法仍然是一个具有重要实用价值的技术难题。本文针对复杂场景下的目标追踪进行研究,重点分析了TLD[1](Tracking Learning Detecti
改革开放40年以来,中国经济社会发展取得举世瞩目成就的同时,城乡收入差距问题也愈发严峻。缩小城乡收入差距,实现城乡融合发展不仅是学术界所关注的热点研究话题,更是中国全
行人再识别是计算机视觉领域的一个重要研究分支,其技术被广泛应用于城市交通管理、公共安防、刑事侦查等需要智能视频监控的领域。行人再识别的主要任务是解决视角不重叠的
同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)技术是利用传感器进行自动定位并实时构建地图的技术。传统SLAM算法多用于PC端。仅基于视觉的SLAM算法受环
由于群速度色散和自相位调制之间的相互平衡,光孤子可以在光纤中长距离传输且形状不发生改变,因为这一特性,孤子可以在光纤通信系统中实现远距离和大容量传输,并可以应用在很
新时代的教育教学改革提倡自主探索、合作的学习方式,协作学习作为一种典型群体知识建构方式备受诸多学者关注。当前研究者较多关注计算机支持的在线协作学习,但无论在线学习