论文部分内容阅读
时间序列是一种广泛存在的数据,客观记录了所观测的系统在各个时刻点的具体值,所以可以通过研究时间序列数据来辨识和重构所观测系统的动力学行为。早期的研究方法是基于统计学知识的,主张在满足某种假设的前提下用解析函数来对时间序列进行全局建模。但是时间序列往往都含有大量噪声和复杂结构,导致解析函数的建模变得非常困难。因此,需要一种研究方法能够充分利用时间序列数据发掘其背后隐含的规律和知识。在这种需求的促进下,基于数据挖掘技术的时间序列数据研究方法就应运而生了。数据挖掘是一个十分活跃和具有研究前景的领域,为时间序列分析提供了新思路和视野。由于所研究的真实系统或现象的内部往往受到多个因素的综合作用,从而导致作为其输出的时间序列具有许多复杂性的表现:维度高、海量性、结构复杂、存在噪声、存在相似性变形(不精确匹配)等等。这些固有的特性使时间序列数据挖掘研究充满了挑战。尽管国内外研究者在时间序列挖掘上已经取得了许多研究成果,但依然存在很多亟待解决的关键问题。本论文对时间序列数据挖掘技术中的近似表示方法、相似性度量方法和时间序列聚类等技术面临的关键问题进行了深入研究,其主要研究内容如下:第一,针对现有近似表示方法所面临的维度约简会丢失基本信息、算法参数需要精调的问题,本文提出了一种无参的符号化近似表示模型NSAR(Non-parametric Symbolic Approximate Representation)。针对以往近似表示在实现维度约简的同时会丢失基本信息的问题,NSAR主要采用符号化编码技术实现维度的极大约简,同时采用了提取多尺度离散小波近似系数和关键点来保留原始序列的基本特征信息。针对现有的绝大多数近似表示方法面临需要精调参数的难点,NSAR在设计时从三个方面实现了无参化:小波分解尺度log,n是由序列长度确定的;关键点提取在滤除噪声后的小波近似系数上进行,不用设置阈值筛选;对关键点序列进行符号化,自动决定出只需要2个符号来表示上升,下降趋势。实验结果表明, NSAR能够有效解决上述两个问题,可以实现维度极大约简的同时保留住原始时间序列的基本信息,并且是无参。第二,针对现有的相似性度量方法只能容忍一两种轻微的相似性变形,本文设计了一种基于形状信息的时间序列相似性度量方法SIMshape(SIMilarity measure based shape information)。不同于现有的相似性度量方法在相似性比较时不加区别的对待序列所有信息,SIMshape在相似性判断时更侧重序列基本形状的对比,弱化细节信息的影响,以充分考虑相似性变形只会影响细节信息,不会改变序列基本形状的特性。SIMshape的实现是在序列的多尺度形状信息上进行,同时设计了尺度权值函数赋予较粗尺度大权值,较细尺度上小权值来进一步减弱相似性变形对相似性判断的干扰。实验结果表明SIMshape可以容忍更多的相似性变形。第三,针对现有的时间序列聚类过程中缺乏自发性、聚类质量较差的问题,本文提出了一种基于全局结构特征和核力场的时间序列聚类。针对现有的聚类方法需要人为指定阈值完成对聚类对象,缺乏自发性的问题,新的聚类方法选取了核力为聚类的一种新标准,利用物理粒子相互作用的核力,来产生自发的相向运动反映数据对象之间的天然聚散关系,从而可以依据数据对象间的自组织聚集特性找出类结构,减少了聚类过程中的人为因素。针对现有的时间序列聚类质量较差的问题,新的聚类方法利用信息熵的方法找出有助于呈现聚类结构的全局特征,从而使得后续的算法更容易发现真实的类簇。相关实验结果表明提出的时间聚类方法可以自发的找出数据的真实聚类,并且可以容忍一定程度的时间序列不等长,不易受到噪声和缺失点的影响。本文从三个方面进行研究来提高时间序列数据挖掘的性能,即:通过建立非参数符号化近似表示模型NSAR来减少基本信息丢失和实现无参化设计;通过建立形状相似性度量SIMshape来提高相似性度量方法对相似性变形的容忍力:根据全局特征和基于核力场的动态聚类来实现时间序列自发的聚类。实验结果表明,本文提出的方法在时间序列数据挖掘上具有更好的相似性检索性能,可有效降低时间序列最近邻分类误差率,又能自发的找出真实的时间序列聚类。