基于DBSCAN聚类算法的研究与应用

来源 :江南大学 | 被引量 : 0次 | 上传用户:zz121961437
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和移动终端设备在世界范围内的迅速发展与广泛普及,越来越多的传统行业受到了前所未有的挑战,尤其是近年来大数据时代的不断深入,各行业更加注重数据挖掘技术在其信息系统建设中的重要性。聚类分析作为数据挖掘领域的重要研究方向之一,目前已被广泛应用于数据分析、图像处理、机器学习等领域。其中,基于密度的聚类算法不需要预先指定聚类簇数,而且可以在含有噪声数据的数据集中识别任意数量和形状的聚类,DBSCAN作为基于密度算法的经典代表,在聚类分析中得到越来越多的应用。本文通过对DBSCAN聚类算法的研究,并针对现阶段城市出租车分布不合理、调度效率低下的问题,基于出租车载客热点数据分布不均匀、数据量庞大的自身特点,提出了一种可以满足出租车载客热点挖掘的多密度聚类DBSCAN改进算法;结合移动平台下的地图服务,设计并实现了基于移动终端的出租车载客热点挖掘系统,用以指导城市出租车的分布与调度。本文的主要研究工作如下:首先,针对基于密度的DBSCAN算法对于输入参数敏感、无法聚类多密度数据集的问题,提出了一种贪心的DBSCAN改进算法(Greedy DBSCAN)。算法仅需输入一个参数MinPts,采用贪心策略自适应地寻找Eps半径参数进行簇发现,利用相对稠密度识别和判定噪声数据,在随机寻找核对象过程中使用邻域查询方式提升算法效率,最终通过簇的合并产生最终的聚类结果。实验结果表明改进后的算法能有效地分离噪声数据,识别多密度簇,聚类准确度较高。其次,为了进一步提升Greedy DBSCAN算法处理大规模数据集的聚类效率,提出了基于蓄水池抽样的Greedy DBSCAN算法,利用统计最优样本大小确定抽样率,仿真实验结果表明算法可适应大规模、形状不规则的多密度聚类;并通过WEKA数据挖掘工具对出租车原始GPS数据进行预处理,提取有效的载客热点数据,将基于蓄水池抽样的Greedy DBSCAN算法对北京市12000台出租车5天原始GPS数据进行实验,以此验证所提算法在发现和预测出租车载客热点区域应用中的有效性。最后,系统设计中采用MVC分层架构模式及当下流行的REST风格架构的资源设计模板,使用Spring MVC+Spring+Hibernate轻量级开发框架实现系统的服务器部分,利用Bootstrap响应式前端框架实现系统的Web前端;在系统实际应用中,针对出租车载客热点数据在工作日与节假日不同时段的分布特征,适当的调整MinPts参数以达到细粒度聚类,聚类结果以标记形式展示在移动终端地图上,引导出租车司机载客。最终通过系统测试运行,验证了文中相关算法与技术在出租车载客热点挖掘应用中的有效性。
其他文献
随着我国经济的快速发展,公众聚集场所与日俱增,安全隐患也随之增加,公众聚集场所的消防安全治理尤为重要。本文就国内公众场所清防安全现状做出分析并提出相应的对策。
汉画像石中有一种被称为"十字穿璧"的图案,以十字线条在圆环内交叉穿过为特征,艺术史学者多在墓葬美术研究的语境下将其解读为"升仙"。而在建筑史的视角下,检索汉代建筑历史
回忆起刚来杂志社的时候,那是2006年的5月,当时的王凤娜总编面试我,热情,直爽,善于交流的我立马被她看重,也由此开始了我的杂志社生活。
目的探讨多功能腔镜清洗槽在腔镜器械清洗消毒中的应用效果。方法将腔镜手术使用后的400件器械,按手术结束时间的次序分为实验组200件和对照组200件,对照组采用常规清洗方法,
蚊虫吸血、骚扰人畜、传播疾病,多年来采用化学合成杀虫剂对其控制、杀灭取得了较好效果,但也诱导了蚊虫抗性的产生,并造成了环境问题。因此研制和使用生物杀蚊剂受到广泛关
目的:观察脓毒症患者T细胞及树突细胞(DCs)的分化及表型,探讨调节性DCs(DCregs)诱导脓毒症免疫功能障碍的机制。方法:收集脓毒症患者和健康对照者各10例。脓毒症患者根据病程
目的探讨鲍恩病患者采用盐酸氨酮戊酸光动力治疗的效果及总结护理要点。方法 2010年1月~2011年12月对36例鲍恩病患者采用盐酸氨酮戊酸光动力治疗,并配合做好护理工作。结果 36