基于自然邻的密度聚类算法及其并行化研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:zoook
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析技术是一种基于数据对象之间的相似程度,达到对数据进行处理的一种数据处理技术,是一种无监督的数据处理方法;在众多的学术领域当中,都有着聚类分析技术的身影,比如电子商务、网络安全等。随着众多学者对该类技术的深入研究和探索,越来越多的算法涌现了出来,使得聚类分析技术在近几十年来飞速发展,虽然如此,但这项技术仍然有着很大的发展空间,例如如何处理高维度的数据集、怎样对各种形状的簇进行处理、如何避免噪声点的干扰、如何适用于存在密度相差较大的簇的数据集、如何有效地获取数据集中的类别数目、甚至于如何评价一种聚类结果的优劣等等。聚类分析有着众多的发展分支,其中基于密度的聚类算法通过对数据集中核心点、边界点以及密度可达进行详细定义,进而对数据集进行聚类操作,这种方式能够很好地处理不同形状的簇,还能较为准确地发现数据集中的噪声点,并且不需要指定最终结果的聚类数目,也有着很强的可解释性,基于这些优点,近几年来,很多学者投身于该算法的研究当中;然而随着对该类算法的研究的深入,我们发现该类算法也存在着诸多缺点,以其中最为经典的算法为例,首先,该算法对输入的参数依赖性高,参数选择的不同将直接影响到聚类结果的好坏;其次,该算法对边界点的处理不够合理,采用遍历顺序的方式归类边界点,可解释性弱;再者,该算法在数据集中存在着密度差异较大的簇时,无法得出正确的聚类结果;针对这些问题,本文提出一种新的基于自然邻居搜索算法改进的算法(-),通过引入自然邻居搜索算法预先对数据集进行处理,得出其部分先验信息,通过这些信息自适应地获取数据集中的核心点与各个数据点的邻域半径值,避免了人为设定参数,也很好地处理了密度差异较大的簇,新算法修改了算法中的直接密度相连的定义,更好的处理了边界点。通过对新算法的时间复杂度以及当前主流的大数据处理框架进行分析,提出一种基于数据与流程的并行结构对自然邻算法进行并行化处理;充分分析NN-DBSCAN算法,并采用单机多线程的方式对该算法进行并行;通过实验结果表明,-算法效果在很多数据集上都优于算法,并且在时间开销上,自然邻算法在新的并行化结构下优于在Spark大数据平台下处理的效果。
其他文献
近年来,随着移动互联网、社交网络的快速发展,包括图像、视频在内的视觉数据快速增长。从这些视觉数据中提取有用信息仍是一个难题。之前人们试图通过传统机器学习算法来提取
软件测试是评估和保证软件质量的重要途径之一。构造预期输出问题(即Oracle问题)是软件测试工作中经常碰到的难题。蜕变测试技术通过判断程序的多个输入之间的关系及其对应的
在多媒体技术和网络技术日益普及、飞速发展的时代,传统的加密技术已经无法满足需要了,需要一种新的方法,以解决多媒体信息的保密问题。在这种情况下,信息隐藏技术应运而生,
近年来,随着人们生活水平和社会文化水平的提高,旅游已逐渐成为人们休闲娱乐的主要活动之一。各大景区游客数量的飞速增长和人们对旅游品质要求的提高,特别是自助游的兴起和
随着蜂窝移动通信的不断演进和发展,人们对数据流量业务的需求持续增加,LTE-A标准的提出,对信号传输质量、信号传输时延的标准进一步提高。在当前移动通信用户数量爆炸式增多
党的十八大提出,要毫不动摇的鼓励、支持、引导非公有制经济发展,保证各种所有制经济依法平等使用生产要素、公平参与市场竞争、同等受到法律保护。党的十八届三中全会以来,
鲤鱼(Cyprinus carpio)别称鲤拐子、鲤子和红鱼等,属鲤形目,鲤科,鲤属,是我国重要的经济鱼类。近年来,鲤鱼的高密度养殖在带来高经济效益的同时也引发多种鱼类病害问题,致使养
随着多媒体技术快速发展,数字化信息的管理和传输变得更加便捷,然而这在给人们带来便利的同时也产生了一系列的信息安全问题,如不法拷贝、盗版和版权纠纷等。因此,对数字产品
近年来,防止冤假错案,捍卫司法公正的呼声越来越强,冤假错案的产生很大程度上源于侦查行为对犯罪嫌疑人基本人权的严重侵害,而非法取证行为产生的非法证据能否用于指控犯罪、
新能源电动汽车的发展需要依靠充电行业作为基础保障,随着新能源汽车市场的快速增长,充电桩的建设也进入快速发展期,但是,其行业生存环境并不乐观,充电桩公司还存在许多亟待