面向不确定性数据聚类方法的初步研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:llz364088963
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,数据呈现出海量性以及多样性,给数据挖掘和聚类分析带来了极大困难,另外真实数据中往往存在着不确定性,这种不确定性使得挖掘出有价值的信息变得更加困难。所以,近年来,如何能有效的从不确定数据集中提取出有价值的信息成为研究热点之一。不确定数据主要分为存在级和属性级不缺性,为了能更好的理解这两种不确定数据,本文主要做了以下工作:第一,本文在第三章中提出ULDC算法,用于对不确定数据进行聚类分析,该算法是在学习基于密度的面向不确定数据的聚类算法时,发现某些算法在对不确定数据进行聚类时,有一些缺点。针对这些缺点,提出一种基于局部密度的ULDC算法。首先改进不确定数据对象之间相似性的度量方式,然后介绍ULDC算法所涉及的相关概念,比如局部密度、数据链等,最后描述该算法的整体流程。该算法主要是将局部密度作为不确定数据对象唯一的属性来进行聚类分析,并且,与DBSCAN等算法相比,该算法减少了参数值的个数,由此提高聚类结果的质量。通过实验验证,该算法在Iris数据集合Connect-4数据集上的F1值分别为0.8876和0.9086,说明该算法有比较好的聚类质量。第二,本文在第四章中提出UBFCM算法,用来对不确定数据进行聚类分析,提出该算法是因为现实世界当中,数据对象一般存在不确定性并且数据对象之间界限划分都比较模糊,所以通过对模糊C-均值聚类算法进行改进,本文提出UBFCM算法,对不确定数据进行聚类分析。首先详细说明模糊C-均值算法的原理,为本文研究打下基础。然后解释不确定数据聚类模型所涉及的相关定义,通过使用不确定数据对象的质心来代替原有的不确定数据对象,可以使聚类算法得到简化。最后使用新的相似度计算方式来计算不确定数据对象之间的相似性,提高聚类质量。通过与UK-means算法进行对比实验验证,该算法在Iris数据集、Wine数据集和Glass数据集中的F1值分别为0.8965,0.7642和0.6248,均比UK-Means算法的F1值高,说明该算法具有一定的正确性。
其他文献
“六書”學說一直以來就是中國傳統文字學的核心,而象形則是“六書”學的重要組成部分。在20世紀,學者們利用大量出土的古文字材料,積極借鑒西方語言學思想對象形的相關問題
介绍了南瑞SAVR-2000系统励磁调节器通讯的结构和特点,结合其在桥巩水电站的运行情况,分析了SAVR-2000调节器存在的通讯问题及原因,并提出了处理办法。
本文主要剖析了仔猪大肠杆菌病的发生原因,采取中西药对比试验治疗仔猪大肠杆菌病,发现环丙沙星组、中草药组对仔猪腹泻都有比较好的治疗效果。在日常管理中,加强卫生消毒、
以检测到的交流感应电动机定子电流为实验数据,对定子正常和故障电流信号进行分析和比较,将基于快速独立分量分析的方法用于提取相应故障信号的特征点,进而对感应电劝机的故障进
介绍了某工程地下室出现严重裂缝事故的具体情况,分析了事故发生的原因,提出事故处理的措施与方法,并对勘察设计工作容易疏忽的问题提出处理建议。
随着社会的发展,我国汽车保有量进一步增加,人们对汽车性能的要求也愈发提高。其中,非常重要的就是汽车的NVH(Noise,Vibration,Harshness)性能。而噪声是汽车NVH性能的重要组成部分,对驾驶员和乘客的身体和心理健康都会造成不良影响。聚氨酯材料因其低密度、易成型、易生产以及出色的声学性能等优点,在汽车的声学包装中被广泛应用。目前使用的聚氨酯材料一般都是由纯石油基聚氨酯制备而成。纯