多维数据集最佳聚类数确定算法的研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:wangccui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在科技日益进步的今天,数据量急剧增长。如果能够充分利用这些数据所隐含的信息,将会产生巨大的经济效益。由于聚类分析技术具有能够处理庞大数据信息的功能,所以它在数据挖掘领域中成为了最重要的研究课题之一。目前,它被广泛的应用在资料自动分类、生物信息学和信息过滤等领域。特别是物联网技术的广泛应用以及其他相关技术的发展,使得所产生的大部分数据都具有较多的数据维度,譬如,各种类型的文档数据、多媒体图像数据和基因表达数据等数据所具有的维度可以达到几十维,甚至上千维。由于这些多维数据集的存在具有普遍性,所以对多维数据集进行聚类分析的意义变得越来越重要。   在聚类分析过程中,数据维度较低的数据对象之间相似度度量方法通常是基于传统距离方法进行的,而在多维数据集中,由于这些数据集中的数据对象分布具有内在稀疏性,使得传统基于距离的计算方法的有效性大大降低。由于受到“维度效应”的影响,许多在处理低维数据上表现较好的聚类分析算法,而在对多维数据进行分析时,却无法得到比较理想的效果,甚至得到错误的聚类结果。   本文主要从多维数据集的最佳聚类数确定问题进行研究,首先对传统的获得数据集的最佳聚类数的方法进行相关分析,继而提出新的确定多维数据集最佳聚类数的算法以及新的有效性指标。本文主要的工作如下。   首先对比较经典的数据集的最佳聚类数确定算法进行分析,并在该算法的基础上,提出一个基于k-means聚类算法的最佳聚类数的确定算法-Op-means算法。再者,根据数据集的几何结构以及数据对象的分布情况,提出了一个基于单个数据对象的有效性指标-BIP,这样可以使得该有效性指标的含义变得更为准确、直观。其次是根据多维数据的特点,介绍一个基于多维数据的相似性判定方法,使得对聚类分析变得更为简单。最后基于新的有效性指标与相似性判定方法的基础上,提出一个基于多维数据集的最佳聚类数的确定算法-MHC算法。
其他文献
相变存储器(Phase Change Memory,PCM)是一种具有吸引力和发展潜力的新型存储技术,具有非易失性、高读取速度、高存储密度以及低静态功耗等优点。这些优良特性使的 PCM有望成
智能电网作为未来电力系统发展变革的方向,现已成为世界各国关注的焦点。信息集成共享作为智能电网的基本特征之一,为电力系统的发展带来诸多优点的同时也给电力系统的运行和控制带来了安全隐患。如何保障各应用系统间的信息安全访问和交换就是电网集成体系中迫切需要解决的问题。访问控制技术作为安全防护的核心策略之一,对保障电力系统安全、稳定运行具有重要的现实意义。本文研究内容主要包括三部分:首先,结合智能电网信息集
基于波动方程的声学模拟能够获得声波在空间中真实的传播效果,在许多工程应用中起着基础作用。但因其巨大的计算量,一直是工程计算中的难点。利用现代GPU技术对波动方程求解
社交网络中社会标签化服务的出现,使得用户可以在上传图像等网络资源的同时,使用标签对资源进行标注,而且用户可以对已上传的网络资源进行主题描述、评论等。这些用户标注或
联合补充问题(JRP)在高效管理库存和节约成本方面具有非常重要的意义。由于需求等大量因素受市场环境以及外界条件影响很大,会出现各种难以预料的波动,因此往往不能达到精确的
企业服务总线(Enterprise Service Bus,ESB)基于SOA(Service OrientedArchitecture)架构可以实现异构应用系统的高效整合,成为企业应用集成(Enterprise Application Intergrati
学位
随着大数据时代的来临,机器学习作为现代数据分析技术的理论基石,发挥了至关重要的作用,同时也面临着大大小小的挑战。分类问题作为机器学习领域最基本最核心的问题之一,持续
图像增强是图像低层视觉处理的一个基本问题。如何结合人类视觉系统(HVS)对图像的对比度色彩饱和度等的感知特性,设计颜色高保真和细节明显的图像增强算法是图像增强领域的研
随着信息和通信技术的发展,网络已成为支撑现代社会经济发展、社会进步和科技创新的最重要基础设施,如何建立一种低复杂、易管理、高灵活性的未来网络系统,来满足日益增长的专用