基于概率密度网格结构的不确定数据流聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wufala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外学者对不确定数据流的聚类问题进行了大量的研究,但仍有不少问题尚待解决。大多数不确定数据流聚类算法不能在线得到精确的聚类结果;现有算法采用固定划分网格的方法,不能有效处理边界点;已有基于网格的算法,对概率密度网格单元缺少有效的存储结构。这些问题的研究对于不确定数据流的聚类分析以及在具体领域的应用都具有重要的意义。首先,为了实现对不确定数据流的在线聚类,提出了一种基于概率密度网格结构的不确定数据流聚类算法。该算法采用计数型滑动窗口,以反映不确定数据流的当前情况。同时,采用概率密度网格的存储结构,以使算法能够发现任意形状的簇。另外,还定义网格概率密度相似度,以实现初始化及更新聚类,提高算法的实时性。其次,为了更好地处理边界点问题,提出了一种基于可调整的概率密度网格结构的不确定数据流聚类算法。该算法采用可调整的概率密度网格技术来处理稀疏网格单元,以提高聚类质量。同时,还定义概率密度网格聚类特征用以存储不确定数据流的概要信息。另外,在概率密度的定义中引入时间衰减因子,以降低历史数据对聚类结果的影响。最后,为了有效存储网格单元,提出了一种基于概率密度网格树的不确定数据流聚类算法。该算法将一种树型概要数据结构引入到不确定数据流聚类算法中。首先把不确定元组按其属性值分配到一棵多叉树中,以消除空网格对聚类结果的影响。同时,设置时间间隔,以提高算法的执行效率。另外,还引入噪音阈值函数,以有效发现噪音叶子节点。本文通过实验对上述提出的算法进行验证,并与已有经典算法进行比较分析。
其他文献
电子政务系统发展突飞猛进,多应用性、分布性、多地域性成为大势所趋,电子政务在新环境下的安全问题成为研究热点,电子政务系统安全服务平台可以通过在安全基础设施与电子政
随着互联网的普及和网络数据量的迅速膨胀,网络信息抽取和整合变得尤为重要。当前,网络上存在大量的信息,这些信息以结构化的形式存储在网站的后台数据库中,通过模板包装成网
细胞内的很多重要生理过程,如细胞信号转导、免疫反应、基因复制、转录、翻译以及细胞周期调控等,都是通过蛋白质复合体或蛋白质分子间相互作用来完成的。因此要充分理解和认识
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究决策树的算法很多,比较著名的有ID3算法、C4.
高分辨率数码相机的普及和网络传输带宽的增加造成了数字化图像的大量产生和堆积。大规模的图像数据库的有效管理与检索成为当前信息检索领域的重要课题。传统的基于内容的图
粒子滤波算法作为一种基于蒙特卡罗方法和递推贝叶斯估计的新方法,在处理非线性、非高斯系统的参数估计和状态滤波方面具有独到的优势,自上世纪90年代重采样算法被提出后,该
大量现实应用包括生物信息分析、化学制药、社会网络聚类等需要图挖掘技术的支撑,其中基于图中的频繁模式挖掘一直是一项核心研究,也引起了学术界和工业界广泛的高度重视。随
随着网络技术的发展,网络功能日益强大,业务的综合性更为突出。网络通信涉及到多用户参与,需要耗费大量的网络资源,由于不同网络业务对各种服务质量(Quality of Service,QoS)有着
随着数字技术和因特网的发展,越来越多的图像和视频以数字内容的方式存储。存储成本的降低和数字内容的增加,如何有效地管理和检索这些数字内容成为一个极具挑战性的问题。既
内网信息安全的实质是对内网信息流和数据流进行全生命周期的有效管理,确保信息的保密性、可用性、完整性、可控性和不可否认性。现有的内网信息安全技术大多依赖于内部网络