【摘 要】
:
聚类是数据挖掘领域中重要的技术之一,用于发现数据对象中未知的分类。聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以将其作为数据挖掘中的一个预处理
论文部分内容阅读
聚类是数据挖掘领域中重要的技术之一,用于发现数据对象中未知的分类。聚类算法不仅可以作为发现数据库中数据分布的深层次信息的工具,还可以将其作为数据挖掘中的一个预处理步骤。聚类分析是要达到这样一种目的,将数据对象划分成不同的簇,使得同一个簇中的数据对象具有较高的相似度,不同簇中的数据对象的相似度较低。行车热点是车辆行驶频繁的地带,它可以反映出用户的行车规律,本文主要利用了聚类分析技术来解决行车热点问题。本文首先对基于划分的K-Means聚类算法进行了分析研究,K-Means算法的优点是简单易行,时间复杂度为O(n),并且适用于处理大规模数据集。其次就是本文的重点工作,针对K-Means聚类算法的聚类个数k值的确定、初始聚类中心的选取及对孤立点敏感这三方面缺点进行了改进,提出了改进的算法KMSDR。算法的目标是在确保发现聚类中心的同时使同一类内的相似度大而不同类内的相似度小。算法采用改进的最大最小距离法选取新的聚类中心,并且根据距离阈值判断所选中心是否孤立;其次给出Dis(S,k)距离函数,并应用此聚类函数确定最佳聚类个数;用类中数据对象代替均值中心的方法降低孤立点对类中心点的影响。并且通过三组数据来对改进的算法进行仿真实验,证明KMSDR算法在聚类质量及时间效率方面得到了改进。最后将改进的KMSDR算法运用到行车数据分析系统的行车热点问题中,并针对得到的行车热点完成页面的展示,而且在行车热点基础上实现了周边检索及测距的功能。经过实验验证,改进算法能够较准确的找到行车热点,并且在时间性能上得到了提高,算法的稳定性也强。行车热点功能不仅可以反映出车辆的活动规律以便用户了解自己的驾驶习惯,也为用户的出行提供方便。
其他文献
网站自动生成系统为企业或团体建设网站提供了一种简便的、快速的、低成本的解决方案。Internet上已经出现了为数不少的这类提供自助建站的门户。然而综观这些门户,一般是通过
投影聚类作为一种重要的高维聚类分析技术,不同于子空间聚类,投影聚类要求得到一组互斥的对象划分,不允许不同聚类共享相同的对象。由于投影聚类的结果具有良好的区分特性,使
工作流技术是实现企业业务过程建模、仿真分析、优化和业务过程管理与集成,从而最终实现业务过程自动化的核心技术。研究和推广工作流技术对企业信息化具有重要的现实意义。
微博平台的产生与发展,使其用户可以在微博平台上根据自己的意愿收听自己感兴趣的内容。不仅如此,微博平台也成为了其用户分享、交流以及传播信息的最主要社会媒体。面对微博
无线定位业务LCS是随着移动通信技术的进步而发展起来的增值业务,移动台定位技术对于蜂窝网络,特别是3G网络的重要性已得到广泛认同。国内外许多公司、科研院所都对定位方法原
新一代软件构架模型SOA的流行,使得基于Web服务的企业级应用不断增加,随之而来的是Web服务数量的成倍增长。因此,如何更有效的重用这些已有的Web服务成为当今研究的热点。使用We
点对点(P2P)网络是一种具有较高扩展性的分布式系统结构,它打破了传统的客户/服务器(C/S)模式,将互联网的集中管理模式引向分散管理模式,在网络中的每个节点的地位都是对等的
如今信息技术飞速发展,人们对多媒体,特别是包含有大量信息的数字视频的需求也越来越大。由于计算机技术、通信技术、微电子技术、网络技术的进步,实时视频压缩和传输成为可
超宽带(UWB)作为一项新兴的无线定位通信技术,以其传输速率高、发射功率低、多径分辨率高、保密性好、抗干扰能力强等优点,受到越来越多的关注。在无线传感器,雷达,定位等领
动态提供计算和服务环境以满足开放环境下多变的应用服务需求,是现代计算技术的一个热点问题。传统的计算环境由存储部件与计算部件静态绑定形成,许多计算环境按需部署研究都采