论文部分内容阅读
目前,数据呈现出海量性以及多样性,给数据挖掘和聚类分析带来了极大困难,另外真实数据中往往存在着不确定性,这种不确定性使得挖掘出有价值的信息变得更加困难。所以,近年来,如何能有效的从不确定数据集中提取出有价值的信息成为研究热点之一。不确定数据主要分为存在级和属性级不缺性,为了能更好的理解这两种不确定数据,本文主要做了以下工作:第一,本文在第三章中提出ULDC算法,用于对不确定数据进行聚类分析,该算法是在学习基于密度的面向不确定数据的聚类算法时,发现某些算法在对不确定数据进行聚类时,有一些缺点。针对这些缺点,提出一种基于局部密度的ULDC算法。首先改进不确定数据对象之间相似性的度量方式,然后介绍ULDC算法所涉及的相关概念,比如局部密度、数据链等,最后描述该算法的整体流程。该算法主要是将局部密度作为不确定数据对象唯一的属性来进行聚类分析,并且,与DBSCAN等算法相比,该算法减少了参数值的个数,由此提高聚类结果的质量。通过实验验证,该算法在Iris数据集合Connect-4数据集上的F1值分别为0.8876和0.9086,说明该算法有比较好的聚类质量。第二,本文在第四章中提出UBFCM算法,用来对不确定数据进行聚类分析,提出该算法是因为现实世界当中,数据对象一般存在不确定性并且数据对象之间界限划分都比较模糊,所以通过对模糊C-均值聚类算法进行改进,本文提出UBFCM算法,对不确定数据进行聚类分析。首先详细说明模糊C-均值算法的原理,为本文研究打下基础。然后解释不确定数据聚类模型所涉及的相关定义,通过使用不确定数据对象的质心来代替原有的不确定数据对象,可以使聚类算法得到简化。最后使用新的相似度计算方式来计算不确定数据对象之间的相似性,提高聚类质量。通过与UK-means算法进行对比实验验证,该算法在Iris数据集、Wine数据集和Glass数据集中的F1值分别为0.8965,0.7642和0.6248,均比UK-Means算法的F1值高,说明该算法具有一定的正确性。