一种改进的分布式网格聚类算法的研究与实现

来源 :云南大学 | 被引量 : 0次 | 上传用户:chrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类作为数据挖掘领域的重要分支,广泛应用于图像识别、自然语言处理、推荐系统、相关性分析等诸多领域。传统的聚类算法主要是以单机的形式挖掘有效信息,这种方式随着数据量的不断增长,会受到计算机性能、内存等方面的制约,难以满足当今海量数据的聚类需求。分布式计算框架为传统的单机版聚类算法提供了一种较为有效的解决途径,利用统一化集群提升机器的计算和存储能力,使聚类算法不再受限于数据规模、计算资源等限制。但是目前的分布式聚类算法在处理高维海量数据的场景时,往往会存在以下两个问题:一是对于高维数据的处理,最终的聚类结果准确度较低;二是在计算大规模数据时,算法的平均耗时较长,效率低下。为解决现有算法存在的问题,本文利用数据降维技术、网格聚类思想以及Spark分布式平台,提出了一种基于自适应网格划分的分布式聚类算法,算法具有处理高维海量数据的能力,在标准数据集和真实数据集上,均具有较好的聚类结果和较高的运行效率。此外还搭建了一套完整的城市热点区域挖掘系统,基于GPS出租车轨迹和微博签到数据,有效地挖掘昆明市的热点区域。本文的主要工作如下:(1)对于图像、文本等高维数据集,设计并实现了基于决策图和线性判别分析的降维方法进行总体数据的预处理,将高维数据映射至低维空间内,有效减少后续的计算量。(2)利用Spark分布式计算平台、自适应网格划分和多阶段单元分配的思想提出了一种改进的分布式网格聚类算法,算法在多种形式、多种维度的数据集上,均具有较好的处理能力。(3)搭建了一套完整的用于挖掘城市热点区域的自动化系统,包含数据采集、数据预处理、聚类分析以及结果可视化等模块。系统基于Docker容器进行管理,扩展便捷,易于移植。本文的研究成果可以应用于城市规划、相关性分析等领域,帮助人们解决在高维海量数据场景下难以挖掘有效信息的问题,具有较好的研究价值和应用前景。
其他文献
复杂网络技术早已渗入了人类生活之中,节点重要性是复杂网络的主要研究对象之一。但是,本文关注一个相关但略有不同的问题——识别复杂网络中节点相对于一组已知重要节点的重要性,即相对重要节点识别方法的研究。此类问题在现实中广泛应用,比如,根据已被逮捕的罪犯寻找其他罪犯;在交通网络中,通过已拥堵的路段,优先找出易拥堵的路段进行交通管制。本文对复杂网络中相对重要节点的识别工作进行研究,分别从网络拓扑结构和随机
学位
长期以来,癌病在全球内严重危害人体健康,其发生率和致死率一直居高不下。在实际临床治疗中,组织病理学检验始终是治疗肿瘤最直接、准确的。但是,组织病理图像诊断需要病理学家在高倍率下观察细胞的结构变换,这要求病理学家具有极高的水平,国内的高水平的病理学家极度匮乏。近年来,人工智能技术在医学影像领域的许多方面取得了惊人的成就,组织病理图像的智能诊断也取得了巨大进步。现有的一些研究通常依赖于病理学家对病患区
学位
从1976年开始出现的“埃博拉”病毒,到2003年流行的“非典”病毒,再到2019年大范围传播的新型冠状病毒,全球由于感染传染病病毒导致的死亡率持续增加,严重危害着人类的健康,病毒基因序列的研究成为生物信息学领域研究的热点。基因序列是由四种碱基组成的功能序列,存储着生物的遗传信息,在生物的起源和进化中有着至关重要的作用。病毒在传播的过程中会发生基因突变,致使某些碱基发生变化,从而给病毒基因序列的研
学位
近几年,得益于数据,算法,算力等要素的提高,人工智能由技术理论向产品应用迈进,不断向各行各业进行渗透,重塑传统行业模式,赋能产业升级,人类社会向智能社会迈进。这期间,计算机软件需求复杂化,规模持续扩大化,需求变更愈加频繁不定,对大型复杂系统的重构效果也不尽如人意。因此,对软件或驱动等应用程序的需求进行正确的分类已成为软件工程的一项基本任务。软件需求文本分类不仅有助于软件开发前期的分析参考,也有助于
学位
物联网(Internet of Things,Io T)在近年来发展迅速的同时,针对物联网基础设施、应用程序和终端设备的攻击也显著增加。恶意软件作为物联网中最主要的威胁,常导致个人隐私数据泄露、物联网设备遭遇僵尸网络攻击等问题。设计有效的恶意软件检测机制,对保障物联网的安全具有重要的意义和价值。自2015年微软恶意软件检测挑战竞赛之后,人工智能驱动的恶意软件检测技术取得了显著的进展,检测准确率日趋
学位
我国已经全面进入5 G时代,与过去相比,我们具备了快速传送海量数据的良好条件。情绪分类被广泛地运用于股票市场分析、消费者心理分析、企业市场需求分析等各个方面,并与人们的日常生活紧密相连。对于粗粒度语句级情感分类模型,本文提出了多类型词嵌入融合的联合训练模型。在词嵌入上,与之前Bert GCN单纯使用Bert及其衍生模型作为词嵌入表征文本,本文为每个数据集补充了Glove词嵌入,扩充了模型的词嵌入类
学位
近年来,我国公路交通事业飞速发展,汽车保有量逐年增多。高速公路凭借“贷款修路,收费还贷”的模式快速发展,同时,这也让收费站变得不可或缺。然而,在车流量比较大时,在收费站停车收费很容易导致交通拥堵。收费站成为限制高速路通行效率的瓶颈,严重影响着人们的出行体验。ETC的推广提高了收费效率,在一定程度上缓解了收费站的交通拥堵现象。与此同时,也出现了各种恶意逃费行为,严重扰乱交通秩序。因此,研究设计一种可
学位
ETC(Electronic Toll Collection,电子不停车收费)是当前我国重要的交通基础设施,也是ITS(Intelligent Transportation System,智能交通系统)关键的构成部分之一,但现有的ETC系统效率低下,存在车辆逃费等问题。由于区块链的可追溯性和抗篡改性,区块链与ETC系统的结合是解决上述问题的可行途径。然而,传统区块链(如比特币和以太坊)能耗高、效率
学位
为了控制干法腈纶纤维的染色性能,研究了聚合工艺对干法腈纶染色性能的影响。基于聚合引发体系、游离酸生成、端基滴定度及聚合物受热等因素进行研究,介绍了干法腈纶的聚合反应机理以及聚合工艺对纤维染色性能的影响。
期刊
微波光子移相与相位编码信号生成技术作为雷达系统中不可或缺的关键技术,可以灵活控制波束指向,提高探测距离和距离分辨率,有效解决了传统电子技术存在的“电子瓶颈”问题。然而,随着高频电磁频谱的不断开发和使用,目前已有的光子移相与相位编码信号生成方案存在功能比较单一、无法实现频率大范围可调等问题,不能很好地满足未来高频率、大带宽、多功能、低损耗雷达系统的需求。因此,本文主要针对基于电光外调制的光子移相与相
学位