无参数聚类边界点检测算法的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:windforce9811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会是信息化的社会,信息量急剧.的膨胀,如何从大量数据中用非平凡的方法发现知识,已经成为信息产业界广泛关注的问题。数据挖掘可以从大量的信息中发现有用的信息和知识,因此它已成为信息时代的一个研究热点。聚类分析是数据挖掘中一个重要的研究领域,它的许多研究成果已经被广泛应用于模式识别、数据分析、图像处理、市场研究等多个领域。聚类边界分析是聚类分析的一个分支,它在聚类分析、图像检索、虚拟现实等领域中有着重要的作用。但是目前关于聚类边界点的研究才刚刚起步,并且已有的边界检测的算法存在着输出结果对输入参数高度依赖、不能准确提取多密度数据集中聚类的边界点等问题。另外,目前存在的聚类算法和边界检测算法大多数是相互独立的,没有将聚类和边界检测相融合。   针对现有的边界点检测算法都需要输入参数,但在实际应用中算法的参数又难以确定这一问题,本文利用边界点自身的分布特征和k-means聚类技术来自动计算出数据集的边界度阈值,提出了一种无参数边界检测算法NPRIM。   针对现有的边界检测算法在含有任意形状、多密度聚类且不同聚类间距离较近的数据集上算法精度不高,聚类算法与边界检测算法相互分离等这些问题,本文充分利用最小生成树和三角剖分图能自然反应数据点分布特征的优点,将两者结合起来提出了一种新的基于最小生成树的聚类边界检测算法2-MSTCRIM。   本文实现了算法NPRIM和2-MSTCRIM,在综合数据集和真实数据集上做了大量实验,并与BORDER、BRIM等其它边界检测算法进行了比较,实验结果表明:算法NPRIM和2-MSTCRIM均能在包含任意形状、不同大小的多密度聚类的数据集上有效地检测出边界点。其中,算法NPRIM不需要输入任何参数,算法2-MSTCRIM在簇与簇之间距离较近的多密度数据集上的检测精度更高且具有聚类功能。  
其他文献
P2P网络(Peer to Peer Network, P2P Network)是当今分布式计算领域学术研究的热点之一,P2P网络自诞生以来就广泛的应用于分布式资源共享和协同工作。与传统集中式的资源管理
随着因特网的进一步发展,新的、要求更高的业务流层出不穷,正是由于它们的出现对现有的网络提出了如更高的传输效率、动态的路由调整、灵活的网络控制能力等要求。多协议标签
电视的普及,带动了电视广告的飞速发展。广告已成为各个电视台收入的主要来源。为了在竞争日益激烈的广告行业中立于不败之地,电视台对电子商务平台的需求越来越强烈。电视广
随着网络以及多媒体技术的迅速发展,涌现出了大量的数字视频,并呈现出一种急剧增加的趋势。与此同时,也引发了许多新的技术,包括视频存档、编目、索引以及有效存取等。更多的人们
随着计算机技术的快速发展,仿真技术越来越多地受到人们的重视,尤其在虚拟现实领域,为了使虚拟场景更加逼真和自然,对影响虚拟场景沉浸感、逼真度的植物的仿真也越来越多。自
近100多年来全球气候变化日益剧烈,各种天灾接踵而至,夏季旱涝灾害是其中重要灾害之一。长江中下游梅雨期资料对度量当地夏季旱涝是一项主要指标,因此对梅雨总量的预测研究对
随着XML在各行各业的广泛应用,XML已经成为了事实上的一种通用数据表示和交换的标准,纯XML格式在移动数据库中倍受青睐。然而,在移动环境中,引入主动机制对移动数据库的性能
当前,随着分布式系统越来越广泛的应用,其高可用性的需求也逐渐增强。作为实现高可用性的关键技术,分布式系统中失效检测的实现逐渐成为学术界的一个研究热点。失效检测技术
中等职业学校计算机实训教学的目标是让职业学校计算机专业学生获得系统的专业技能训练,巩固和加强所学专业理论知识,培养学生动手操作能力和综合运用知识能力。实训教学是计
随着信息技术时代的发展和科学技术的进步,用于学术研究的文献量和各种网络信息量越来越多,如何在海量信息中提炼出学科领域发展方向和研究热点显得尤为重要,特别是学者们对