混合属性数据流的聚类算法研究及其应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:xiaomei52689
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术和硬件设备的不断发展,数据流挖掘技术在视频监控、图像理解、人脸识别和实时监控系统等方面有着巨大应用前景,针对数据流快速连续到达和持续增长的特点,传统聚类算法无法适用于数据流对象,数据流对聚类算法提出了诸多新的要求,成为数据挖掘领域的研究热点之一。  本文针对现有的数据流聚类算法存在的几个问题:混合属性数据流的普适相似度度量方法、聚类中心确定困难、聚类算法参数设定困难以及数据流在线演化分析等,设计了一种面向混合数据流的聚类方法,基于普适性的混合数据距离度量方法设计数据流的快速有效聚类,实现聚类中心自动确定、参数自适应、数据流在线演化分析和离群点处理,并将其应用于人脸识别提出了一种无监督的人脸识别方法。具体研究内容包括以下五个部分:  (1)针对混合属性数据流,研究提出一种具有普适性的混合属性数据距离度量方法。分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据三类,利用数据属性之间的关联关系,设计条件概率描述所蕴含的内在类属结构,从而实现三种不同类型数据流的距离度量方式。  (2)针对现有大部分混合属性聚类算法普遍存在聚类质量低、聚类算法参数依赖性大和聚类中心无法自动确定等问题,提出了基于密度的聚类中心自动确定的混合属性数据聚类算法(ACC-FSFDP)。计算数据集各个点之间的距离,获得密度和距离分布图,设计聚类中心自动确定方法(ACC),即通过线性回归模型和残差分析确定奇异点,理论证明奇异点即为聚类中心,并通过快速划分的方法实现聚类。对于聚类参数密度半径dc的选择,实现了基于粒子群优化算法(PSO)实现聚类参数dc自适应,实现不同数据集的dc最优选择。  (3)针对现有的混合属性数据流聚类算法聚类精度不高、处理离群点能力差等缺陷,将ACC-FSFDP算法扩展到数据流聚类算法当中,提出了一种聚类中心自动确定的混合属性数据流聚类算法。采用在线/离线两层框架,提出一种新的八元组微簇特征向量来动态维护不断到达的数据对象,并引入了衰减函数和微簇删除机制使得算法能够更好的符合数据流的进化特性。  (4)针对数据流的在线实时变化特性,对其展开演化分析,提出了一种基于密度网格的加强聚簇边缘检测的混合属性数据流聚类算法。设计九元组网格特征向量来动态维护不断到达的数据对象,并引入了衰减函数和网格删除机制使得算法能够更好地符合数据流的进化特性,并处理离群对象。离线部分采用广度优化搜素,将相邻可达的网格聚成一类,并强化对争议网格的检测,将其与关联度最高的直接相邻密集网格保持一致,能够快速有效的获得最终聚类结果。  (5)针对现有人脸识别分类算法需要提取足够已知类标信息的人脸图像作为训练样本的必备前提,本文将提出的聚类算法应用到人脸图像识别,实现了一种基于密度聚类的无监督人脸识别方法。该方法不需要任何先验知识,即在未知样本的分类信息情况下,根据人脸图像的特征信息进行聚类,通过严格过滤聚类结果保持聚簇的纯净性,以保证后续训练模型的精确度。利用聚类中心含有表征该聚簇内对象丰富的特征信息的特点,根据聚类算法得到的聚类结果,提取聚类中心及少量簇内成员进行训练并识别,实现无监督条件下的人脸识别。
其他文献
随着机器学习理论的不断发展进步,应用机器学习技术解决智能车辆系统的环境感知问题成为人们研究的热点。障碍物检测是环境感知的重要组成部分。传统监督学习方法借助大量预
螺旋灯自动弯管机是螺旋荧光灯生产的关键设备之一,它自2007年问世以来正快步走向成熟。现在仍有不少厂家采用手工弯管设备,有些厂家采用半自动化设备,工人的劳动强度大、生
神经网络以其优良的非线性逼近能力在人工智能,语音识别,智能控制等领域得到了广泛的应用,并且已经在越来越多的领域得到关注。但是BP神经网络存在容易早熟陷入局部最优收敛慢以
基于视频流的运动人体检测是计算机视觉和模式识别领域的一个研究热点。由于现实场景复杂多变等原因,运动人体的有效检测一直存在较大难点。本文主要工作包括:  (1)提出一种
随着我国经济的快速发展、城镇化进程的不断加快、城市规模的不断扩大,从而导致城市居民出行需求的大幅增加,进而引发一系列公共交通问题。公交调度系统是近几年广受世人关注且
学位
电力电子变换装置的广泛应用提高了电能的利用效率,节约了能源,同时也给电网带来了日益严重的谐波污染。作为治理谐波污染的一项关键技术,有源滤波器(APF)已成为电力电子领域的
学位
物体搬运在实际应用中十分常见,但在空间尺寸受限或者有危险的环境下进行物体搬运非常困难,因此,如何在环境受限的情况下利用多智能体系统实现物体的搬运,使其满足复杂的路径
基于扩散加权磁共振成像的脑白质神经纤维跟踪技术是当前重构活体大脑中纤维组织微结构的唯一非侵入式方法,该技术的出现为大脑认知机理探究、神经类疾病病理分析以及脑手术规