空间数据聚类的研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:hulin510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大规模的高维数据和各种约束条件,如何建立有效、可扩展的聚类算法是数据挖掘领域的一个研究热点。围绕以上问题,本文对聚类算法进行了深入研究,主要包括以下几个方面的内容:通过对密度类算法和网格类算法的分析,提出一种基于网格和密度综合的算法CluGD,算法使用网格方法得到反映数据空间的代表点,代表点不是实际的数据点,而是表示数据点特征的虚拟点,然后通过密度类算法对代表点进行聚类,此算法采用的参数和DBSCAN算法相同,由于采用了网格方法,算法的效率得到很大提高;又使用随机样例的方法针对参考点提出了算法GDRS;由于大规模数据中的密度变化较大,单一密度不能准确的刻画数据空间的特征,由CluGD扩展提出了算法VCluGD,此算法使用预处理过程给出数据空间内给定邻域半径后点密度和点数量的关系图,方便用户设置多级参数,从而进行多级聚类,获得较好的聚类效果。三种算法都具有对于数据集大小的线性时间复杂度,适合大规模数据的聚类问题。通过研究和分析处理非空间约束聚类算法的一些优点和不足,对DBSCAN算法进行扩展提出了DBSCAN+算法,然后针对非空间的高维特性提出使用SOM神经网络算法辅助进行处理,DBSCAN+对非空间数据采用按照不同数据类型分别计算相异度的方法,并给出了试验结果。辅助进行处理的方法是首先使用SOM对高维数据聚类的维进行选择,然后对候选维使用DBSCAN+算法聚类,或在候选维的基础上使用SOM方法进行非空间聚类,并把SOM和DBSCAN+两种算法的聚类结果相结合,试验表明算法是有效的。针对现有空间约束聚类的缺点,提出一种可以处理空间约束的算法DBOF。该方法对空间约束分为三种对象:障碍对象,通达对象,既具有障碍作用又具有通达作用的对象。对于障碍对象采用多边形建模,对于通达对象采用图拓扑的方法建模,对第三种约束采用带有穿越点属性的图拓扑进行建模。对于障碍对象采用完整的障碍距离衡量两点之间的距离,而对于后两种约束由于采用了图拓扑的方法,有利于算法的实际应用。试验结果表明,DBOF算法具有更好的聚类效果,并且具有良好的运行效率。
其他文献
从共和党在1994年11月国会期中选举获胜以来,克林顿一直把1996年的大选放在自己日程的首位,同企图进而夺取白宫的共和党进行了一次又一次的较量。今年8月共和党和民主党的全
新形势下,贯彻落实党的十八大精神,围绕建设巩固国防和强大军队加快推进国防后备力量建设,应重点把握好“三个问题”。积极适应形势任务变化,全面推进党管武装工作。坚持党管武装
目的探讨多形外膜蛋白(Pmp)与沙眼衣原体泌尿生殖道感染的相关性。方法选取84例沙眼衣原体泌尿生殖道感染患者作为感染组,同期健康体检者40例为对照组,以Western-blot法检测两组
工商企业债权,从会计学的角度而言,主指应收账款、预付账款、应收票据、应收利息。工商企业债务,从会计学的角度而言,主指应付账款、其它应付款、预收账款、应付票据、短期借款、
目的评估抗生素临床合理应用的药学干预方式及效果。方法选取66例患者,作为本次研究的对象,根据抗生素管理方法,分为实验组(n=33)与对照组(n=33)。对照组,抗生素常规管理。实
针对某330 MW发电机组磨煤机存在石子煤量大、出力不足的问题,应用冷态试验和分析对比的方法,找到了磨煤机存在问题的原因,提出了磨煤机风环和磨辊进行技术改造方案。结果表
目的分析显微镜下侧裂-岛叶入路治疗基底节区高血压脑出血患者的临床疗效。方法选择2015年7月至2017年1月60例基底节区高血压脑出血患者并随机分组。传统组行常规颞瓣开颅血
随着我国经济水平和科学技术的快速发展,智能化自动化的发展也相当迅速,并在各个领域中的实际应用也取得了有效的应用,由于传统电气工程中控制器的使用存在着较多的问题,极大
目的探讨围绝经期功能失调性子宫出血患者的治疗中米非司酮与曼月乐治疗的临床效果。方法将围绝经期功能失调性子宫出血患者110例纳入研究范畴,并以随机数字表法为分组依据,将
初中生物学科所包含的内容多 ,重点、要点多 ,这就意味着上好一堂复习课难度较大 ,而复习课的教学将直接影响学生对知识的掌握程度 ,为此 ,我们可用多媒体辅助教学来提高初中