论文部分内容阅读
时间序列数据广泛存在于经济金融、气象科学等领域,时间序列的相似性研究具有深刻的理论意义与重要的实际应用价值。时间序列数据挖掘研究中许多算法都是基于某种相似性度量的,时间序列的特征表示方法对相似性度量结果的好坏具有重要影响。本文在对国内外经典时间序列相似度量算法和特征表示方法进行充分分析的基础上,进行了以下研究工作:首先综述了时间序列数据挖掘的研究背景和实际研究意义,指出了时间序列特征表示和相似性度量的研究现状,然后详细介绍了最具代表性的时间序列特征表示方法和相似性度量算法,最后给出了两种改进的时间序列相似性度量算法。因为时间序列本身具有高维度、高噪声的特点,进行相似性度量之前,需要对序列进行特征表示。针对现有的特征表示方法在趋势提取和维度约简中存在局限性导致难以准确高效的提取序列形态趋势的问题,提出一种新的基于趋势的改进斜率距离相似度量算法。该算法首先将经验模态分解方法与分段线性表示方法相结合,经验模态分解方法具有过滤噪声的优点,先用其提取序列的形态趋势,再用PLR分段线性表示方法对趋势序列进行分段形态拟合,优化了特征表示结果。在此基础上结合序列的模式对斜率距离进行改进,克服了斜率距离方法没有考虑模式差异导致的相似度量结果误差较大的缺陷。文中针对基于三元涨落模式的时间序列相似性度量方法模式划分不够细致,无法反映出序列的具体变化趋势问题,还提出了一种新的基于形态模式的相似性度量算法。该算法首先对时间序列进行分段线性表示,在此基础上给出了七元形态模式的划分方法,根据序列在不同时段的分段斜率值,确定分段的形态模式,并将序列的不同形态模式分别用不同的数字表示,从而将时间序列转换成特殊的字符串序列,最后利用最长公共子序列方法计算字符串序列的距离作为时间序列之间的距离。理论分析和仿真实验证明本文提出的两个方法在时间序列的相似性度量工作中度量结果的准确度都有所提高,而且具有稳定性好、对噪声和平移不敏感的特点。