论文部分内容阅读
近年来,随着移动通讯、监控摄像、射频识别、无线传感器、空间数据库等技术的迅速发展,包含位置信息的空间数据在个人信息服务、公共事业和科学研究等领域的积累呈爆炸性增长。从大量空间数据中寻找有利于个人和公共服务以及科学研究的隐含信息已成为迫切需要。空间数据挖掘正是从空间数据库中提取潜在信息和规律的过程,它为及时发现移动用户的内在需求,实现人性化和智能化的服务提供了重要科学依据。本文所研究的同位模式挖掘是空间数据挖掘的重要组成部分,它在大量空间数据中发现一些空间特征的子集,这些子集的空间实例频繁地聚集在一起。通过挖掘这些被称为同位模式的空间特征子集,我们可以有效地发现空间特征间的依赖关系,从而将其应用于移动商务、地球科学、生物科学、公共卫生、交通物流等各个相关领域。由于同位模式挖掘问题的一般性和多样性,它在不同类型数据集和应用背景下具有不同的表现形式。本文针对当前同位模式挖掘的研究现状,从空间同位模式挖掘、区域同位模式挖掘、时空同位模式挖掘和同位轨迹挖掘四个方面分析了传统挖掘方法的各种局限,进而深入探索更加有效的挖掘理论和技术。论文的研究成果可归纳如下:(1)面向空间同位模式挖掘问题,提出了基于流行度回报的迭代式挖掘框架。分析讨论了传统空间同位模式挖掘方法采用距离阈值和流行度阈值的局限性,提出动态构建邻域关系图的挖掘策略。通过对邻域约束与流行度约束关系的分析总结,定义了流行度回报的概念,并在此基础上提出了挖掘空间同位模式的迭代式框架和对应算法。基于真实数据的实验表明,该方法在避免了阈值策略局限性的同时能够有效地发现空间同位模式。(2)面向区域同位模式挖掘问题,提出了基于k近邻图的层次式挖掘框架。分析总结了基于距离阈值的传统挖掘方法在密度多样化数据集中的局限性,进而阐述了挖掘区域同位模式的必要性。提出采用k近邻图替代距离阈值,层次式地为各个空间区域构建邻域关系图,从而有针对性地挖掘区域同位模式。定义了邻域距离变化系数的概念,在控制了区域内部邻域距离差异的同时,也避免了为每个区域事先指定一个k值。基于合成数据和真实数据的实验表明,该方法能够准确地发现传统挖掘方法可能低估或高估的区域同位模式。(3)面向时空同位模式挖掘问题,提出了加权滑动窗口模型。传统方法在挖掘时空同位模式时直接将时间作为一个额外维度处理,抑或是在多个时间片内展开挖掘工作。前者具有较高的时间复杂度,而后者则可能忽略掉一些横跨时间片的模式信息。相比之下,本文所提出的加权滑动窗口模型更具一般性,在将空间实例间的时间间隔加权的同时,也降低了计算复杂度,同时还将时间具有方向性的特点考虑在内。基于合成数据和真实数据的实验表明,该方法能快速有效地挖掘了时空同位模式,并具有良好的可伸缩性。(4)首次提出了同位轨迹模式挖掘问题,并进一步提出基于同位轨迹树的挖掘算法。给出了同位轨迹模式挖掘的形式化定义及其应用范围。定义了同位轨迹树的结构,并从理论上证明了它的单调递减特性,从而有效地索引同位轨迹的传播路径。提出了同位轨迹模式挖掘算法,在证明其完整性和正确性的同时,也分析了它的计算复杂度。基于合成数据的实验表明,该方法能高效地挖掘同位轨迹模式。