数据流中基于区间划分的高维聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wangsong1008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据规模的不断增大以及数据维数的不断增长,传统的聚类算法已经无法获得有意义的聚类结果。针对高维数据流的聚类问题,本文将重点放在聚类过程中存储空间的有效利用、聚类结果的更新以及聚类算法对数据的适用性上,并提出两种聚类算法:基于最优区间划分的动态聚类算法和基于空间划分的信息熵聚类算法。本文首先定义了基于内存的数据集划分方法,这种区间划分方法使得划分后的区间大小与存储单元大小匹配,避免了存储单元内部闲置带来的资源浪费问题。在此基础之上,提出两种区间划分方式:将最优区间划分为高密网格和将数据空间划分为单位空间。其次,设计了一种基于最优区间划分的动态聚类算法DOIC。该算法通过基于内存的数据集划分和最优区间划分得到高密网格,使数据集的划分更贴近数据的实际分布特征;通过HDU树的创建和合并,以解决数据的聚类及更新问题;同时,为了消除历史数据对聚类结果的影响,利用权值以实现在聚类过程中对历史数据的逐步废弃。该算法的数据空间伸缩性和聚类效果较以往算法都有所提高。最后,提出了一种数据流中基于空间划分的信息熵聚类算法IEC。IEC算法利用信息熵指导聚类过程,为了减少聚类过程中的计算量,将数据集划分为单位空间,然后通过单位空间的信息熵及各单位空间之间的信息熵指导完成聚类过程。
其他文献
近几年,随着电子商务等需要的剧增,人脸自动识别已经成为了最具潜力的身份认证方式。人脸自动识别具有非侵犯性、直接性和友好性,更加符合人们的视觉习惯,是人们最容易接受的
图像作为一种媒介具有文字所无法比拟的丰富表现力,成为我们这个社会一种非常重要的存储和表现信息的载体。但是由于各种原因引起了图像信息的损坏,对这些损坏的信息进行恢复就