面向高维数据的动态随机投影三支聚类方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:metor2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代如何快速正确挖掘海量高维数据资源中蕴藏的信息价值是当今的焦点,聚类分析广泛应用于识别海量高维数据中的结构信息,因此,高维数据聚类成为了聚类研究领域当中的热点问题。除了属性维度增加带来的“维度灾难”以外,在社交网络、生物信息处理与电子商务等高维复杂数据的实际应用中,因为数据本身具有不确定性信息,数据对象和簇的关系有以下三种可能:确定属于或确定不属于,可能属于也可能不属于。为了提高聚类的准确性,保留数据之间的不确定性关系,需要高维聚类算法具有处理不确定性数据的能力,能够对簇与簇之间的边界数据点进行不确定性的处理,同时对簇内的关系紧密程度进行一个详细的划分。因此,本文提出利用三支聚类方法来研究面向高维数据及其不确定性聚类。1.本文首先提出了面向高维数据的动态随机投影的三支聚类模型。该模型动态地将原始高维数据投影到属性维度由低到高的多个子空间中进行聚类,比较相邻两个空间的聚类结果,从中选取较好的聚类结果进行保留,同时计算目标函数值是否满足算法停止条件,若不满足,增加属性维度并投影聚类,比较本次聚类结果与上次较好聚类结果并选出较好的结果保留,计算目标函数值,直到目标函数值满足停止条件,算法停止,输出一个综合考虑聚类质量与计算代价平衡的聚类结果。2.提出基于随机投影的三支k-medoids动态聚类方法。为了验证模型的可行性和有效性,提出了基于随机投影的三支k-medoids动态聚类方法,该方法提出了具体的基于k-medoids的三支决策聚类算法以及定义了计算模型当中的目标函数。在基于k-medoids的三支决策聚类算法中应用新的阈值?和?设置方法,只设置一对参数自动计算每个类的决策阈值?和?,根据类簇的不同获得不同的阈值对,在将数据对象划分到类的正域、边界域或者负域时比设置一对全局决策阈值更合理。3.提出改进的动态随机投影三支聚类方法。该方法是针对基于随机投影的三支k-medoids动态三支聚类方法的改进方法。该方法提出了基于密度峰值的三支决策聚类算法,重新定义了目标函数,改进了基于随机投影的三支k-medoids动态聚类方法中动态随机投影时不能根据聚类结果自动调整增加的维度大小的问题。利用该方法进一步验证模型的有效性与可行性。实验表明,本文提出的两种算法都是有效的,且相较一些传统的二支决策聚类算法,本文提出的两种三支聚类方法能够显著提高聚类正确率。
其他文献
本文就门静脉在肝癌生长中的作用及超声引导下门静脉介入在肝癌诊治中的应用等有关文献作一综述。
余秋雨先生的《都江堰》曾经出现在上海S版高中语文教材中,现在被选录在人教版高中语文选修教材。文章的篇幅不短,如何在课堂上实现长文短教,用一节课的时间完成文本的理解与探
随着基因工程技术的发展,动植物品种特性的改良越来越多的需要靠转化多个基因来实现,于是杂交法、分次转化法、共转化法等多基因转化方法应运而生。但目前为止,所有这些方法
在多次针对老年人居住状况的调研中,我们听到了不少老年人对居住条件的需求与看法。这些问题有的是急需改善的现状,有的是对未来的憧憬。当我们试着将这些问题和需求总结起来以
报纸
《鹧鸪天》这首写景抒情词是苏东坡贬谪黄州时所作,是他幽居生活的写照。与课本里的《定风波》都是表现作者雨后游赏的欢快、闲适、达观心境。通过学习,我个人认为可作为《鹧
三江源自然保护区是目前我国面积最大、高海拔地区生物多样性最集中的自然保护区。但是由于全球气候变暖和人为等多种因素的影响,这一地区的生态状况日益恶化。为了根本改善
何为"高效课堂"?即老师在教学活动中,采用各种方式和手段用最少的时间、最小的精力,取得尽可能多的教学效果. 其最终目的不仅是让学生掌握知识,还必须让学生享受学的过程.