基于划分和层次的聚类算法关键技术研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:whj0631
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要的,因此数据挖掘技术得到了广泛的关注。数据挖掘技术是指从大量的、复杂的、可能缺失的数据中揭示出隐含的、未知的并有潜在价值的信息的过程。聚类分析是数据挖掘中的一个重要方向,对其进行深入的研究有着重要的理论意义和实际的应用价值。聚类分析的本质就是将一组物理或抽象的对象分组为若干个簇,其结果是同一个簇的对象彼此相似,不同簇之间的对象彼此不相似。聚类分析已经广泛的应用于社会的各个领域,如数据分析、图像处理、市场营销等等。  聚类分析是一种无监督的分类过程,它不需要事先给出分类标准。它通过数据本身的属性出发,分析数据的特征来自动的进行聚类。聚类算法可以分为五大类,分别为基于划分的方法、基于层次的方法、基于网格的方法以及基于原型的方法。每一个种类的聚类算法只有在针对与之相适应的数据集的情况下,才能够获得比较理想的聚类结果。  本文首先介绍了聚类分析的研究背景和意义,然后简要的介绍了聚类分析的国内外研究现状以及每一种分类下的代表算法,并对这些算法的主要思想进行阐述。接着针对K-means算法的优缺点进行了分析,并依据商空间理论提出了一种改进的K-means算法,解决了K-means算法对于初始中心不稳定导致结果出现偏差的问题,并且解决了边界点或噪声点对于算法结果的影响。通过对比试验表明新的算法具有更好的聚类精度。针对聚类算法在高维数据空间中直接的相似性度量已经失去意义,在对共享最近邻相似性度量做了分析后,在其基础上提出了一种新的基于共享最近邻的层次聚类算法。经过对比实验,算法在时间性能和准确性上都较同类算法有所提高。  
其他文献
移动自组织网络(Mobile Ad Hoc Network, MANET)是由在一定范围内的一些无线移动设备(也称为节点)的集合组成的复杂的分布式网络系统,并且不需要依靠任何固定的基础设施,就可
无线传感器网络(WSN)是由大量无线传感器节点构成的、自组织的网络系统。它的特点有大规模部署、低功耗、动态自组织等,近年来在各个领域都获得了广泛的应用。在无线传感器网
云迁移是指将应用程序从企业内部数据中心迁移到云环境的整个过程,该过程涉及到选择云服务,确定迁移方式,重构应用程序,配置云资源等一系列分析、设计、重建的活动。  云计
随着信息时代的发展,计算机﹑科技﹑手机﹑互联网﹑社交网络等关键名词已成为人们日常生活中接触度较广的几个信息时代相关的专有代名词。与此同时,这些信息时代的产物,它们所带来的
数字水印技术是网络环境下知识产权保护和认证的手段之一,是目前信息安全技术领域的一个重要研究方向,本文在对已有的基于小波变换的数字水印技术分析的基础上,利用轮廓变换不仅
随着微机电系统、片上系统、通信技术和低能耗嵌入式技术的快速发展,无线传感器网络(WSN)应运而生,已经成为计算机科学与技术的一个新兴领域。它有十分广阔的使用前景,目前已经应
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何
计算机网络的发展,使得信息的交流和资源的共享更加便捷。为了教师教学和学生学习的方便,校园网带宽逐年扩大,访问的速度也得到了很大的提高。但是,目前校园网带宽的有效利用率并
目前云计算相关研究领域普遍关注的两个问题是如何保证用户的服务等级协议(SLA)和提高数据中心的资源利用效率。虚拟化技术是云计算资源管理的关键技术,而虚拟机动态放置策略
词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现