基于Spark的三支决策密度聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:aidanzeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法的研究是机器学习和数据分析领域的热点问题和重要的分析手段。随着应用领域的样本集的维度不断的增长,数据量不断的增大,传统的聚类算法不能很好的适应时代的变化。本文结合三支决策理论,提出了一种通过三支决策的思想切分出中间域和负域样本点进行再次决策,并且结合Spark分布式并行计算框架,从而有效的解决的聚类算法在大规模样本集上运行时间过长的问题。主要内容如下:1.研究了一种新的基于三支决策的点排序识别聚类结构的算法。首先,对点排序识别聚类算法进行改进,在邻域半径外的范围的样本点重新定义核心聚类和可达距离;其次,在原有的结果集上划分出每个类簇的正域、中间域以及负域,中间域的样本点,如果邻域半径内存在其他簇的正域样本点,则进行二次决策,而对于负域的离群点通过可达距离分配指向最近的类簇。通过在UCI数据集以及人工数据集的实验,证明该算法能够通过簇排序完整的刻画出数据集的聚类结构信息,并且对于类簇之间的中间域样本点有很好的决策判断,从而提高了算法的准确度。2.研究了一种基于Spark的三支决策点排序识别聚类结构算法研究。针对密度聚类时空复杂性比较大的问题,探讨基于三支决策的点排序识别聚类结构的算法进行并行化处理的可能性。首先,通过对数据集进行维度划分,对于每个数据块的样本点进行计算邻居;其次,对每个分区执行点排序识别聚类结构算法,从而得到每个分区的分区簇;最后,算法将进行合并所有分区的聚类结果就可以得到最后的聚类结果集,并在最后进行三支决策的判断。通过UCI数据集的实验表明,该并行密度聚类算法能够很好的解决了大规模数据集运行时间过长的问题。
其他文献
由于考虑了环境噪声对系统变化的影响,与确定性微分方程相比,随机微分方程能够更加准确地描述现实生活中的一些现象和事物发展的客观规律。中立型随机延迟微分方程(NSDDEs)是随机微分方程中一类重要的方程。该类方程不仅依赖现在和过去的状态,还依赖过去一段时间内的变化率,并被广泛地应用于生物学、化工、空气动力学和工程技术。由于大部分的NSDDEs都很难得到真解的表达式,所以研究其数值方法就显得尤为重要。数
氧化锌(ZnO)作为一种新型半导体材料,具有较高的禁带宽度,禁带宽度达到3.37eV。同时这种材料具有优良的光学性能,激子束缚能达到60 meV,被广泛应用在短波长发光器件、压电传感器、透明导电极、太阳能电池、光催化等领域。通过控制合成氧化锌所需前驱体的选择以及用量,可以从微观结构中改变氧化锌纳米粉体的形貌,例如颗粒大小、缺陷分布、比表面积等,而这些因素可以在一定程度上提高氧化锌的物理化学性能。基
在东西艺术交流并不畅通的19世纪,美国学者费诺罗萨(1853-1908)以日本艺术为纽带,成功深入东方文化圈,积极促成中日传统绘画的西传。1906年完稿的《东亚美术史纲》,确使他成
今年是成仿吾诞辰95周年纪念。作为一个革命家、教育家,他颇有传奇经历,在许多方面堪称一代风范。身后,桃李遍地。本文即是他当年一位弟子的怀念回忆文字。 This year is th
流感在全球范围内每年都有流行和暴发,严重威胁人类健康。自2013年以来,我国共计发生五次H7N9人群感染暴发疫情,截至2019年4月,H7N9感染病例1642例,其中612人死亡,病死率高达
带杀的生灭过程是在生灭过程的基础上进一步发展起来的,它是一类特殊的马尔可夫过程,有很重要的现实意义。本文对一类带杀的生灭过程的拟平稳分布进行了研究。在前人的基础上,令这类带杀的生灭过程在状态1处是“死”而不是“杀死”,即过程在状态1的死亡率91>0,在状态1的杀死率61=0,并且过程在状态2,3...处被杀到0的速率6)2,6)3...≥0。以此为基础,通过一个特殊的?9)定义一个对偶生灭过
【研究目的】探索四川地区子宫肌瘤(UM)患者的证素分布特点,及其与气质类型间的关系,探讨其规律,促使子宫肌瘤的中医诊疗不断规范化并向生物-心理-社会医学模式转变,推动中医
图像变换是图像处理与机器视觉研究中的重要工具,因为具有鲁棒性强、去相关性强和计算快速等优点,在图像处理中应用得越来越广泛。随着众多研究者对“分数阶”理论的研究,许
随着编码理论的发展,循环码作为一类特殊的线性码,因具有严谨的代数结构而被广泛研究.常循环码、准循环码和准扭码作为循环码的推广,一方面继承了循环码的良好性能,同时它还有一些循环码不具有的新的特性.如果对准扭码的参数加以限定,就可以从中获得准循环码、常循环码和循环码.准扭码是涵盖三大类码的一类特殊的码,因此对常循环码、准循环码和准扭码的研究是具有一定意义的.同时,利用类推的思想研究了一些推广码的性质以
本文研究了Lyapunov曲线上的带平移的广义多解析函数类的Riemann-Hilbert问题,该函数类是一类n阶迭代Beltrami方程的零解(称为n阶广义β-解析函数)。首先,本文建立了无界区域上一阶广义β-解析函数的Cauchy公式,讨论了带平移的β-Cauchy积分算子的紧致性,由此首次构造并证明了与一阶广义β-解析函数相关联的弱奇异核,进一步获得了广义β-解析函数的多种积分表示。然后,引