论文部分内容阅读
聚类分析技术是一种基于数据对象之间的相似程度,达到对数据进行处理的一种数据处理技术,是一种无监督的数据处理方法;在众多的学术领域当中,都有着聚类分析技术的身影,比如电子商务、网络安全等。随着众多学者对该类技术的深入研究和探索,越来越多的算法涌现了出来,使得聚类分析技术在近几十年来飞速发展,虽然如此,但这项技术仍然有着很大的发展空间,例如如何处理高维度的数据集、怎样对各种形状的簇进行处理、如何避免噪声点的干扰、如何适用于存在密度相差较大的簇的数据集、如何有效地获取数据集中的类别数目、甚至于如何评价一种聚类结果的优劣等等。聚类分析有着众多的发展分支,其中基于密度的聚类算法通过对数据集中核心点、边界点以及密度可达进行详细定义,进而对数据集进行聚类操作,这种方式能够很好地处理不同形状的簇,还能较为准确地发现数据集中的噪声点,并且不需要指定最终结果的聚类数目,也有着很强的可解释性,基于这些优点,近几年来,很多学者投身于该算法的研究当中;然而随着对该类算法的研究的深入,我们发现该类算法也存在着诸多缺点,以其中最为经典的算法为例,首先,该算法对输入的参数依赖性高,参数选择的不同将直接影响到聚类结果的好坏;其次,该算法对边界点的处理不够合理,采用遍历顺序的方式归类边界点,可解释性弱;再者,该算法在数据集中存在着密度差异较大的簇时,无法得出正确的聚类结果;针对这些问题,本文提出一种新的基于自然邻居搜索算法改进的算法(-),通过引入自然邻居搜索算法预先对数据集进行处理,得出其部分先验信息,通过这些信息自适应地获取数据集中的核心点与各个数据点的邻域半径值,避免了人为设定参数,也很好地处理了密度差异较大的簇,新算法修改了算法中的直接密度相连的定义,更好的处理了边界点。通过对新算法的时间复杂度以及当前主流的大数据处理框架进行分析,提出一种基于数据与流程的并行结构对自然邻算法进行并行化处理;充分分析NN-DBSCAN算法,并采用单机多线程的方式对该算法进行并行;通过实验结果表明,-算法效果在很多数据集上都优于算法,并且在时间开销上,自然邻算法在新的并行化结构下优于在Spark大数据平台下处理的效果。