论文部分内容阅读
随着移动互联网技术和数据采集技术的发展,产生了大量包含时间、空间等信息的时空数据。如何从这些时空数据中挖掘潜在有用的知识,用于指导决策、商业分析等社会服务,成为数据挖掘研究领域新的研究问题和热点。本文针对时空数据挖掘问题进行了研究,内容主要包括以下两个方面。(1)时空数据下兴趣区域发现方法的研究。针对现有空间聚类方法时间开销大,且不适应时空数据特性的问题,提出一种时空兴趣区域发现算法SPROI,该算法是一种基于网格和时空密度的聚类算法。一方面,结合访问频率和停留时间两个变量给出了时空密度的密度计算方法,充分考虑了时间、空间约束;另一方面,使用基于网格的聚类方法,在需多次、重复聚类的情况下提高了算法的运行效率。算法的主要过程包括:首先,将空间范围划分为单元格,计算数据所在单元格的时空密度,找出符合密度阈值的核心单元格。然后将核心单元格进行合并、过滤等操作,最后得到时空兴趣区域。实验表明该算法有效可行,效率较高。(2)时空数据下频繁模式挖掘方法的研究。由于时空数据的特殊性,现有的频繁模式挖掘算法不适应时空数据下的挖掘问题,提出一个时空数据的频繁模式挖掘算法SPMQT-mining。该算法考虑时空数据的动态性、序列性,采用滑动窗口模型,构建了基于矩阵、队列和前缀树的概要结构SPMQT压缩存储时空信息,基于Prefix Span方法递归地挖掘时空频繁序列模式。算法的主要过程包括:首先,将时空数据通过SPROI算法转换为兴趣区域序列。然后,针对时空数据的特性,通过构建概要结构SPMQT压缩存储时空信息来分离时空数据中的支持度信息、序列信息和挖掘所需索引信息。最后,基于Prefix Span方法递归地生成投影数据库完成挖掘。实验表明,该算法具有较好的时空效率。