基于相对密度的非均匀数据集聚类方法

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:sunxunjun2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的进步和科技的发展,互联网的使用更为频繁,随之而来的便是大量数据的产生.这些人们生活中产生的形形色色的数据,如若加以利用,便能给人们的生活带来更多便捷.数据挖掘就此应运而生.它通过分析数据本身的结构和数据间的关联性,将无用的信息过滤,进而提炼出更具有价值的信息.聚类作为一种典型的数据挖掘方法,也是一种无监督学习方法,能够在没有先验知识的情况下将数据划分为若干簇,使得不同簇的数据间相似性尽可能小而同一簇内的数据间相似性尽可能大.基于密度的聚类方法将簇看作被低密度区域分隔的高密度区域,能够在数据集中识别任意形状的簇.经典的基于密度的聚类方法能有效识别非凸簇并识别噪声,但在密度分布不均匀的数据集上聚类效果不佳.为了能够适用于更为复杂的场景,本文提出了两种新的聚类方法.首先针对在存在密度差异的数据集中无法识别到低密度簇的问题,本文提出了一种基于相对密度和相互近邻的聚类方法(RDMN).该方法使用基于k近邻的相对密度来度量每个数据点的局部密度,并将数据自身的密度与邻居点的密度的比值作为该点的相对密度,这样便能够从低密度区域中有效识别到密度峰值点.此外,该方法使用相互近邻的概念定义数据间的邻域关系,减小了参数k对数据点局部密度的直接影响.最后,在分配剩余点时从簇的角度出发,寻找并分配生成簇的过程中遗落的数据.其次,考虑到基于代表点的聚类方法用一个数据点代表一个簇,当代表点错误的情况下整个簇中的点都会分配错误,本文提出了基于相对密度的簇核来作为簇的代表(CCS-BRD).相对密度较大的点为簇的局部密度峰值点,而每个簇中的这些点一起就组成了这个簇的密集区域,叫做簇核.只要簇核聚类正确,那么整个簇的结果也显然不会差.在对簇核进行聚类时,由于没有边界点的影响,簇核间的距离会比簇间的距离更大,更加容易对数据点聚类.得到每个簇的簇核后,根据簇核的分布来对边界点进行分配.本文分别在合成数据集和真实数据集上对两个算法进行测试,使用多个评价指标从不同角度对聚类结果进行评估,并与其他算法进行比较,实验结果表明了这两个算法的性能优良.此外还将两个算法进行了比较,RDMN算法在密度不均匀的数据集上性能优于CCS-BRD,而CCS-BRD能够更好的区分数据间的边界.
其他文献
作为介于信号检测和信号解调之间的一项技术,信号调制识别技术在无线通信领域发挥着重要的作用。信号传递过程中,只有识别出信号的调制样式,信号接收端才能正确地接收到所发送的信息。在调制信号的自动识别技术没有应用于工程前,都是一些经过专业培训过的人员对接收信号的频谱变化,时域波形及典型特征等信息进行判断,这种人工方法不仅成本大而且识别率低,因此对信号调制方式自动识别技术的研究是非常有意义的。在对信号识别技
反舰导弹作为攻击海上舰船的先进制导武器,具有射程远、威力大、命中率高的特点,在远程精确打击、智能化探测、目标跟踪等方面发挥了重要作用。弹载雷达在海面检测跟踪目标时,海杂波的存在会严重限制雷达检测目标的能力,为了提高反舰导弹应对复杂海情时的检测识别能力,对海杂波的建模与特性分析因此成为了主要的研究热点。同时,在近程阶段,舰船等大型目标在高分辨下可看作是扩展目标,随着弹目距离越来越近,由角闪烁引起的测
区域边缘侧存在大量分散、异构的平台,计算资源难以集中分配、任务决策因素复杂,从而在无法连接远程中心的情况下收集、传输和处理信息变得十分困难。随着以分散计算为核心的新型移动网络计算模型的发展,根据任务需求的变化,在网络边缘利用闲置的通讯、计算资源对数据进行传输和计算愈发便捷,网络中产生和传输的数据越来越多,分散计算模型正面临着日趋严峻的安全形势。分散计算模型是一种多信任域并存的计算模式,网络中存在大
针对现有应用型高校教学中存在的重知识轻能力、学生缺乏活力等问题,阐述了“面向能力培养、突出任务驱动”的教学理论的应用,并以“Photoshop平面设计”课程为例,提出了应用型高校课堂教学内容与方法、教学模式、考核方式3个方面的改革,为应用型高校课堂改革提供思路。
舰船等水中运动目标在航行过程中由于螺旋桨的搅动而产生的空化现象以及船体碎开波浪,在舰船的尾流内会形成大量的气泡。由于气泡气体的组分、密度和压缩率的差异,使得光波在尾流内的传输与在水体中有很大的差异,因而研究其光学特性可以用来实现对舰船的探测与识别。本文主要研究尾流气泡前向散射光场的空间分布及空间频谱特性。首先是基于Mie散射理论,计算单个气泡的散射系数及散射光强分布。采用向上递推法计算出Mie散射
随着电子技术的蓬勃发展,元器件的功率密度大幅上升,进而使得功率器件的温升激增,温度增长带来的是电子设备失效率的上升,为了提升电子设备的寿命和可靠性,就必须对其进行高效的散热设计。铝、钛、镍、铜、不锈钢等金属的泡沫材料作为密度低且具新颖物理、机械、热、电、声性能的新材料,在轻型结构、吸声、机械阻尼、生物材料,热交换器等领域大有所用。本文对泡沫金属及其散热器进行了理论、仿真和实验三个层面的研究,旨在说
随着注入式红外半实物仿真技术的快速发展,注入式半实物仿真系统对系统闭环延时和红外图像的分辨率、帧频和灰度等提出了更高的要求。因此作为注入式半实物仿真系统中关键设备之一的数据传输系统需要具备高速、低延时和远距离的数据传输能力。本文根据注入式红外半实物仿真系统的要求,设计了一套具有高速、低延时以及远距离传输特点的数据传输系统。数据传输系统可以支持上下行两条链路功能。下行链路:发送卡接收图像仿真计算机的
射频功率放大器作为射频模块的核心部件,广泛应用于物联网、传能、通信、雷达、检测等领域。作为各类射频模块中最大的耗能部件,它的功率输出能力和转换效率会直接对整个射频模块的性能产生重大影响。如何使射频功率放大器输出最大功率时实现更高的效率,已然成为当前高效率射频功率放大器的重要研究内容。本文针对高效率F类功率放大器展开研究,通过对比分析目前的文献研究成果,发现窄带F类功率放大器仍存在调试难度大、电路品
在大数据时代下,计算机系统所需处理的数据量爆炸式增长,片上网络和众核系统的逐渐成熟一定程度上缓解了系统遇到性能瓶颈的问题。但随着众核系统在计算力、通信力方面的提升,这些核心在处理数据时访问内存的频率也会增加,若不优化与内存访问服务相关的系统架构,则内存带宽无法匹配处理器核巨大的数据流通需求。增加片上网络中存储访问控制器,即内存控制器的数量可以看做增加带宽的一种方法。但随着核心逐渐增多,在满足处理器
随着人工智能技术的发展,在许多任务中,以神经网络为代表的机器学习模型已经表现出接近甚至超越人类水平的性能。但是,此模型通常是无法扩展其“功能”的静态模型。每当有新数据出现需要进行训练时,模型就需要使用全部数据重新开始训练。在现实世界中,这种做法在部分应用场景中会变得非常棘手。由于存储限制或隐私问题,很多数据可能会在给定时间后就会消失,甚至根本无法存储,这使得神经网络能够随着时间的推移进行适应和更新