基于spark框架的DBSCAN文本聚类算法

来源 :汕头大学学报(自然科学版) | 被引量 : 0次 | 上传用户:okmijnuhbygvtfcrdx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对DBSCAN算法性能上的瓶颈以及内存和I/O上的消耗严重,提出了一种大数据计算框架的并行聚类方案.选用Spark计算框架对DBSCAN算法进行并行化改进,利用SNN相似度图解决DBSCAN算法对高维数据密度定义模糊的问题,并且将DBSCAN算法运行在spark计算平台上,缓解了内存的不足.实验结果证明,该解决方案相对于单机的DBSCAN算法,聚类精度没有下降,并且通过横向的添加节点增加了运行内存,在缓解内存紧张的前提下降低了算法运行时间,和基于Hadoop的DBSCAN算法相比也有较好的加速比.
其他文献
目的:探讨乳腺的超声分型与体质指数在乳腺病变筛查中的价值。方法:选取2013年2月—2017年2月于我院行乳腺超声检查2000例女性,将乳腺声像图分为4型:腺纤维I型、腺纤维II型、
近几年,我国煤炭行业得到了快速发展,其中填充采煤技术得到了广泛应用,其对促进采煤行业的发展来说意义重大。对填充采煤技术进行合理应用,有效的解决了“三小”压煤困难,提高了企
早在2009年五月份,国家电网召开了名为“2009特高压输电技术国际会议”,在此会议上提出了许多大大小小的各种规划,其中一个很重要的发展规划名为“坚强智能电网”。自会议至
近年来,武陵都市报紧紧围绕民生主题开展新闻宣传,精心策划了武陵都市报助我上大学·圆梦行动、百万助残·光明行动、大爱武陵·敬老孝老行动等系列民生宣传活动。几年来,通
在火电厂的建设和改造过程中,地下水池的建设是比较普遍存在的构筑物,由于电厂的地下水位较高,地下水池发生上浮的情况较多,本文结合工程施工期间的地下水池的上浮处理方案进
<正> 黑龙江省是我国重点林区之一,现有人工林面积已达367万ha,占全省森林总面积的23%。随着人工林面积的不断增加,鼠害亦越来越重,如全省林业厅系统1987年和1988年鼠害发生面
目的:分析不孕症患者在进行子宫输卵管碘油造影时并发淋巴、静脉逆流的发生机制及影像学表现,从而达到预防和减少逆流的发生,尽可能避免并发肺栓塞、脑梗死等严重后果。方法:
现今电脑美术设计已成为艺术设计人员的重要工具。它不仅带来了新的造型语言和表达方式,同时也引起和推动了艺术设计方法的变革。电脑美术的应用给人们带来新的观念、新的思
21世纪是数据信息大爆炸的时代。随着网络新兴媒体、自媒体、微媒体的快速发展,广电传媒业遇到了前所未有的机遇与挑战。依托大数据、云计算、移动互联网等技术,广电传统媒体
作为近代新闻史上重要的报人、新闻学者和新闻教育家,黄天鹏以其著作之丰、新闻活动之活跃和全面,堪称我国新闻学的拓荒人。对其新闻精神进行研究,对近代新闻史的研究有着重