论文部分内容阅读
时间序列是按时间顺序采集的一系列观测值。它具有高维性和动态性,是数据挖掘领域最具挑战性的十大研究方向之一。模式表示和相似度度量是时间序列的两个重点研究方向,并且经常被放在一起研究。前者有助于降低时间序列的维度,消除时间序列中的噪音,以及保留时间序列的基本特性。后者是模式匹配的基础,有助于对时间序列进行挖掘。在本文中,我们在时间域和空间域,对时间序列进行了研究,并基于时间序列的规模(时间尺度),提出了两种时间序列表示方法:预定义模式检测方法和基线检测方法。预定义模式检测方法能够从时间序列中高效地检测出和预定义模式相匹配的实例,即使实例存在时间上弯曲或振幅上的形变。该方法借助模版(预定义模式)和地标(重要点)对时间序列进行压缩表示,并结合地标约束和可信区间来模拟和检测时间序列中的实例。.该方法还引入了最小描述长度,对时间序列进行预处理。最小描述长度不但有助于保留时间序列中的有用信息,而且还可以防止过度拟合。基线可以被看作时间序列的一个大规模的组成成分。获取和校正基线有助于我们更好地理解和关注时间序列的趋势和模式。基于概率密度分布,我们提出了一种新的基线检测方法,最多穿越法。该方法是一种分段线性方法。和其他分段线性方法不同的是:该方法借助概率密度分布的差异来对时间序列中的点进行区别对待。即使在信噪比较高的环境中,该方法依然能够保持优越的性能。在预定义模式和基线检测方法中,都会涉及到参数的选择,如滑动窗口的大小、异常斜率的阈值、平滑度和相似度的阈值等。在设定这些参数时,我们结合了最小描述长度和概率密度分布的原理,让这些方法能够自动根据具体的时间序列来设定,从而避免了因人为设定而造成的误差。本论文研究的实体是实时的时间序列,来自于安装在高速桥梁上的一个传感器网络。该传感器网络由三种不同类型的传感器组成,采集的数据也具有不同的表现形式。我们根据传感器的属性,在不同规模上对它们的时间序列进行变换和模拟,从而来探测不同类传感器间的依赖关系(相关性)。最后,我们结合传感器的其他物理属性,如位置和安装方式,对获得的依赖关系进行二次学习,得出了一些有用的规则。这些规则息有助于今后高效、低成本地设计结构健康监测传感器系统。