一种基于联合熵的聚类边界检测技术研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:prajana
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和数据库技术的不断发展,数据库中存储的数据种类和数量急剧增加,使得如何从海量数据中快速有效地提取有价值的信息变得至关重要。数据挖掘技术应运而生。适当的数据挖掘方法,使得生物学家可以发现大量的遗传信息,也使得地理学家可以发现对陆地气候有显著影响的极地和海洋大气压力模式。聚类技术是数据挖掘中的重要技术之一,人们对聚类技术已经有深入的研究,出现了许多种聚类算法,但对聚类边界的研究刚刚起步。聚类边界是一种模式,在实际应用中有着广泛的用途。在图像检测中,聚类的边界代表物体的轮廓,而在临床医学中,聚类的边界代表具有某种疾病特征的健康人群。所以,对聚类的边界的研究具有重要的价值。本文针对现有算法的不足,提出了基于联合熵的聚类边界检测算法(EDGE)和基于梯度二值化的聚类边界检测算法(BAGB)。EDGE算法采用网格技术和联合熵技术相结合的方法来提取聚类边界点。网格技术用于快速查找数据集中聚类边界所在的网格范围,这样就缩小了查找范围,提高了算法效率。联合熵技术用于在边界落入的网格范围内准确地识别聚类的边界点,这样提高了算法的精度。实验结果表明,该算法能够准确识别不同形状、大小和密度的数据集中聚类的边界,可以有效去除噪声,算法的时间复杂度是输入数据集点数的线性函数,在大型数据集上执行时间优势更明显。BAGB算法采用将网格技术和梯度算子相结合方法来提取聚类的边界点。网格技术用于用于提高数据处理的速度。prewitt梯度算子用于计算梯度,计算时采用的方法是在某网格周围3×3区域内从八个方向来计算梯度,取最大值为中心网格的梯度。梯度用于判断网格是否是边界网格,边界网格中的点即为边界点。此方法是把图像处理中处理图像边界的方法用于处理聚类的边界,为研究聚类边界提供了新思路。实验结果表明,该算法能够在含有噪声点/孤立点的数据集上,有效的检测出聚类的边界,运行效率高。本文的创新之处是:(1)提出了将网格技术和联合熵技术结合来检测聚类边界的思想,给出了EDGE算法;(2)将网格和梯度算子结合实现了聚类边界检测,提出了BAGB算法。
其他文献
随着宽带业务的广泛发展,流媒体服务在互联网中所占的比重越来越大,出现了大量的流媒体应用,如网络电视、体育直播、远程教育等。在传统的流媒体应用系统中,大多采用基于C/S
信息检索过程中最重要的环节就是检索出与用户需求相关的内容。其核心问题就是:对于给定的用户查询,对文档集中的每个文档与查询进行相关性判断。在这一过程中,查询表达了用
无线传感器网络技术融合了现代传感器技术、微电子技术、嵌入式技术、分布式信息处理技术及通信网络技术,是一门新兴技术。它在军事、工业、环境监测、医疗等领域有广泛的应
随着科学技术的迅猛发展,人们对世界的认识越来越广,也因此获得了大量的知识并改善了自己的生产生活。在这个过程中,人们也面临着越来越多的矛盾问题。可拓学应运而生。可拓
本课题来源于西南交大出版社,该出版社要求开发出的考试系统要与教材绑定使用,在满足学生基本考试功能的前提下,还要求尽量减轻教师的考务工作,实现阅卷的自动化,为了解决上
随着我国教育事业的不断改革和发展,近年来高校界的办学规模逐渐呈现出扩大化的趋势。虽然这样可以为大批学子创造出更多的接受高等教育的机会,但同时这也为高校的日常管理工
不平衡数据学习已经逐渐成为当前机器学习领域研究热点之一。在解决不平衡数据集的学习分类的问题时,需要尽可能大的提高分类器对少数类的预测精度,而且也要保证分类器的分类
随着信息技术的飞速发展和计算机应用水平的不断提高,医学成像技术也在飞速发展,人们可以获得大量高分辨率的医学影像,我们需要从这些医学影像中提取出我们需要的信息。然而,
当今,人们生活在无线网络时代,无线设备无处不在,移动电话成为人们生活中不可分割的部分。人们每天使用手机做不同的事,不仅用来与其他人聊天发短信,还用来检索他们所需的各
进入21世纪以来,社会不断的发展、人们的物质生活有了很大的提高,人类疾病的问题也在不断增加。偏瘫患者大多由脑卒中疾病引起的,且发病率呈现上升趋势,偏瘫患者生活不能自理