基于改进的最小生成树聚类算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:star33333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘指的是从大量数据中提取隐含的、事先未知的、并且潜在有用的知识的技术,是目前国际上数据库和信息决策领域最前沿的领域之一。聚类分析就是其中一个重要的研究方向,对它进行深入研究在理论和应用上都有重要价值。目前,很多学者都在尝试用不同的方法来处理聚类问题。但是由于聚类问题属于非监督模式识别问题,现有的方法还存在不足,这就要求对现有聚类技术进行改进,提出新的聚类理论和方法以适应新的应用。本文通过研究,借鉴传统的最小生成树(minimum spanning tree,MST)聚类算法的先进思想,并分析该方法在聚类算法在时间复杂度和聚类效果上的不足,提出一种新的应用于一般问题的改进最小生成树(improved minimum spanning tree,IMST)的聚类算法,该算法首先通过对数据集、中间集的处理,使用一种新的方法构造最小生成树,提高了构造生成树的效率;然后,通过清除最长边后,对初步划分的生成树用矩阵表示,以度最大的结点作为聚类中心,再根据中心点算法完成聚类,解决了以往最小生成树算法无法解决的多个簇用短边或长度相同的边相连无法分类的问题,从而提高了聚类速度,改善了聚类的质量;最后,通过对多维数据进行分析,通过计算各个属性的差异度,能够得出结论,一些属性的存在对于构造生成树有很小的影响或没有影响,删除这些属性列也可以提高效率,达到减少计算复杂性的目的。本文提出的方法解决了传统MST聚类算法存在的问题,并使用降低数据维数的方法,进一步提高了效率,实例验证,该方法具有理论和现实双重意义。
其他文献
目前IPTV系统主要是利用对等网络来进行视频传输,提供实时直播业务。这些系统往往对所有用户都提供相同质量的媒体服务。但是网络带宽的不确定性和终端设备性能指标的差异性都
三维地形仿真技术是虚拟现实技术中最重要的一个技术领域,虚拟现实中的建模是目前计算机图形学中最热门的方向之一,并在各行各业中发挥着重要的作用,如建筑、军事、娱乐等。本文
机器翻译技术是一种能自动将一种语言翻译成另外一种语言的自然语言处理技术。近些年来,随着机器翻译技术的日趋成熟,涌现出各种不同方法来解决机器翻译问题。为了充分利用各
可展曲面是一类不经伸展和裁剪即可展开到平面区域的曲面,是纸张、木材和金属板材等常见材料的良好数学模型。本文针对三角网格模型表示的可展曲面或近似可展曲面,围绕模型的
在这个日新月异、瞬息万变的时代,科技的发展让人们的生活越来越丰富。近几年,智能化的领域越来越受到大家的关注,而智能机器人作为智能化的高端科技设备也受到大家的青睐。
图像分割是计算机视觉与模式识别领域的一个重要研究的方向。物体轮廓的提取在各个方面所起的作用越来越重要,因此这方面的研究也越来越多。主动轮廓模型,Active Contour Mod
随着我国汽车拥有数量地不断增加,交通的现代化一方面为社会创造了大量财富,给人们带来了极大的便利,另一方面也带来了严重的灾难,交通事故频发。国家出台政策法规推广车辆行驶记
在信息技术、云计算等新兴技术的推动下,互联网上的软件服务数量急剧增多的同时,互联网的便捷性也使服务提供者面对的用户群体规模迅速增长,用户需求的个性化程度逐渐增大。
纹理分析在遥感、医学图像处理、计算机视觉及基于纹理的按图像内容检索等许多应用领域中具有重要意义。经验模态分解(Empirical mode decomposition,EMD)由Huang等人在1998
肤色检测技术的研究是目前图像识别与理解研究中的一个热点,它是很多基于肤色的应用的前期处理,如人脸检测、手势识别、色情图像识别及过滤等。稳健的肤色检测技术是这些计算机