论文部分内容阅读
多变量时间序列是时间序列的一个重要部分,而大部分有关于时间序列数据挖掘的研究都是面对单变量时间序列。多变量时间序列不仅描述了各个变量的变化规律,而且还揭示了各变量间的相互依存关系,因此,那些处理单变量时间序列的方法和技术无法照搬到多变量时间序列的研究中去。本文围绕多变量时间序列的预处理与聚类这两个主题,进行了研究现状分析,并提出了具有针对性的改进方法。预处理是多变量时间序列数据挖掘的重要课题,而插值是预处理的一种重要技术。本文将保形三次样条插值引进时间序列的插值,提出了双重插值模型。此模型两次使用保形三次Hermite插值技术对时间序列进行插值,继承了保形三次Hermite插值的优点,不需要序列上各点的导数信息便可以形成序列轨迹,容易将模型推广到高维空间,弥补了数据库中数据点太稀疏的缺陷。以移动对象时间序列为例,双重插值模型取得较好的实验效果,插值精度比分段线性插值、非结点样条插值和保形三次Hermite插值更高。多变量时间序列的变量属性可能是混合属性,即,包括数值属性和分类属性等。针对混合属性的多变量时间序列,首先基于奇异值分解提出了一种加权矩阵覆盖的方法,直观地判断对象间的邻居关系;然后以对象间的共同邻居数量作为多变量时间序列相似性的新度量标准,共同邻居越多越相似;最后提出了改进的层次聚类算法对多变量时间序列进行聚类,每一层上同时合并满足条件的若干对节点,这样减少了噪音对聚类过程的干扰,具有较好的鲁棒性;实验结果表明,这种方法在混合多变量时间序列的数据集上具有良好的效果,此外,在数值多变量时间序列的数据上,实验效果比基于动态时间弯曲距离(DTW)的标准层次聚类算法更好。多变量时间序列数据预处理是聚类研究的前提,数据插值可以填补空缺值、增加点密度和平衡序列刻度等,从而提高聚类分析的准确率。在移动对象和机器人仿真领域的实验结果表明,本研究具有较高的实际应用价值和良好的应用前景。