论文部分内容阅读
随着通信技术和硬件设备的不断发展,数据流挖掘技术在视频监控、图像理解、人脸识别和实时监控系统等方面有着巨大应用前景,针对数据流快速连续到达和持续增长的特点,传统聚类算法无法适用于数据流对象,数据流对聚类算法提出了诸多新的要求,成为数据挖掘领域的研究热点之一。 本文针对现有的数据流聚类算法存在的几个问题:混合属性数据流的普适相似度度量方法、聚类中心确定困难、聚类算法参数设定困难以及数据流在线演化分析等,设计了一种面向混合数据流的聚类方法,基于普适性的混合数据距离度量方法设计数据流的快速有效聚类,实现聚类中心自动确定、参数自适应、数据流在线演化分析和离群点处理,并将其应用于人脸识别提出了一种无监督的人脸识别方法。具体研究内容包括以下五个部分: (1)针对混合属性数据流,研究提出一种具有普适性的混合属性数据距离度量方法。分析混合属性数据特征,将混合属性数据分为数值占优、分类占优和均衡型混合属性数据三类,利用数据属性之间的关联关系,设计条件概率描述所蕴含的内在类属结构,从而实现三种不同类型数据流的距离度量方式。 (2)针对现有大部分混合属性聚类算法普遍存在聚类质量低、聚类算法参数依赖性大和聚类中心无法自动确定等问题,提出了基于密度的聚类中心自动确定的混合属性数据聚类算法(ACC-FSFDP)。计算数据集各个点之间的距离,获得密度和距离分布图,设计聚类中心自动确定方法(ACC),即通过线性回归模型和残差分析确定奇异点,理论证明奇异点即为聚类中心,并通过快速划分的方法实现聚类。对于聚类参数密度半径dc的选择,实现了基于粒子群优化算法(PSO)实现聚类参数dc自适应,实现不同数据集的dc最优选择。 (3)针对现有的混合属性数据流聚类算法聚类精度不高、处理离群点能力差等缺陷,将ACC-FSFDP算法扩展到数据流聚类算法当中,提出了一种聚类中心自动确定的混合属性数据流聚类算法。采用在线/离线两层框架,提出一种新的八元组微簇特征向量来动态维护不断到达的数据对象,并引入了衰减函数和微簇删除机制使得算法能够更好的符合数据流的进化特性。 (4)针对数据流的在线实时变化特性,对其展开演化分析,提出了一种基于密度网格的加强聚簇边缘检测的混合属性数据流聚类算法。设计九元组网格特征向量来动态维护不断到达的数据对象,并引入了衰减函数和网格删除机制使得算法能够更好地符合数据流的进化特性,并处理离群对象。离线部分采用广度优化搜素,将相邻可达的网格聚成一类,并强化对争议网格的检测,将其与关联度最高的直接相邻密集网格保持一致,能够快速有效的获得最终聚类结果。 (5)针对现有人脸识别分类算法需要提取足够已知类标信息的人脸图像作为训练样本的必备前提,本文将提出的聚类算法应用到人脸图像识别,实现了一种基于密度聚类的无监督人脸识别方法。该方法不需要任何先验知识,即在未知样本的分类信息情况下,根据人脸图像的特征信息进行聚类,通过严格过滤聚类结果保持聚簇的纯净性,以保证后续训练模型的精确度。利用聚类中心含有表征该聚簇内对象丰富的特征信息的特点,根据聚类算法得到的聚类结果,提取聚类中心及少量簇内成员进行训练并识别,实现无监督条件下的人脸识别。