时间序列数据挖掘相似性度量和周期模式挖掘研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:JYCheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的飞速发展,数据挖掘受到越来越多的关注。时序数据在现实生活中广泛存在,如金融市场、工业过程、科学试验、医疗、气象、水文、生物信息等,而且存储规模呈现爆炸式增长。因此对时间序列数据挖掘问题进行深入研究是非常必要和富有挑战性的。目前的时间序列数据挖掘技术尚处于起步阶段,挖掘算法有待扩充和完善。本文在综述了时间序列数据挖掘研究发展概况后,对目前的主要方法进行了总结评述,在重新描述、相似性比较和周期模式挖掘几个方面进行了深入研究。最后在总结全文的基础上,指出了本文有待深入研究的若干问题。本文的创新性工作主要包括以下内容:1)提出了基于形态的时间序列相似性度量方法。本方法在时间序列分段线性化的基础上,采用了基于斜率相对变化的符号化重新描述方法,可以有效描述序列形态的动态变化趋势;同时提出了一个与之对应的距离度量公式,克服了点距离度量中存在的对各种扰动敏感的缺陷。实验证明,本方法还具有时间多分辨率特征,可以比较在不同时间分辨率下的时间序列的相似程度。2)提出了局部分段动态时间扭曲算法。经典动态时间扭曲算法(DTW)在时间序列相似性度量中具有重要作用,但由于计算复杂度较高,很难应用于实际数据库中。本文提出了一个新的算法——局部分段动态时间扭曲算法。在对时间序列进行分段线性化的基础上,将每一个段视为一个整体,应用经典的动态时间扭曲算法,通过设置补偿系数,保证了算法的精度。实验表明,本算法能够在计算精度几乎没有损失的情况下,有效地提高经典DTW算法的效率。3)提出了一种高效的时间序列异步周期1-模式挖掘算法。本算法设计了一种基于2进制编码的映射算法,并提出了改进的点乘算法,可以通过一次计算发现一个事件在序列中出现的所有位置;并且,本算法用并行计算替代了原算法中的串行计算方法,显著减少了数据的运算和存储次数。实验证明,本算法在完全不降低原算法准确性的基础上,显著提高了算法效率。4)首次提出了时间序列局部周期频繁模式的概念及其挖掘算法。不同于现有的所有周期挖掘算法,本算法不但能够挖掘出贯穿时间序列全局的频繁发生的周期模式,而且能够发现只在某个局部频繁发生的周期模式。本算法首先将时间序列划分为局部集合,然后基于数据自行找出序列中隐藏的潜在周期,生成局部周期频繁1-模式,最后在每一个有交叉的局部上,应用最大命中子模式树算法合成复杂模式输出。实验证明,本算法可以有效地发现时间序列中的局部周期频繁模式,其中的剪切算法和周期阈值公式能够有效提高算法效率。
其他文献
从繁华的东部沿海来到山西,如同一次时空旅行。五台山、悬空寺、云冈石窟、晋祠、平遥古城、乔家大院……不可思议的国宝建筑见证一个民族辉煌的历史。作为中华民族发祥地之
揭开南极的神秘面纱,你会发现,这个往日被看作"死亡之地"的白色大陆,其实是一个极为富饶、充满生机的"万宝之地"。这里有品位极高的矿藏和丰富的生物资源,这里是世界上唯一未被污染的大陆,是进行各种科学研究的天然基地,是人类的"希望之洲"。
课程思政实现了对大学生价值引领、传授知识、培养能力的多重育人效果,已经在全国高校普遍开展。本文以传播学概论为例,浅谈如何在专业课程中,对大学生分别进行爱国主义、教
生蚝,随着人们生活水平的提高,已经成了酒桌上的常规菜式。我有一位记者同事就 放言:高档自助餐厅的标志就是--生蚝三文鱼敞开了吃。生蚝味美,人尽皆知。但是用 蚝壳做的墙壁
对振动位移信号用于铣刀破损监测进行了详细的研究,建立了铣削过程的切削力模型;分析了铣削过程中振动位移信号的特征,提出了一种基于人工神经网络的振动位移铣刀破损监测方法。
1阳店苹果批发市场的兴与衰阳店市场位于全国苹果主产区的河南省灵宝市阳店镇,是豫、晋、陕黄河金三角地区最早形成、交易量最大的果品市场之一.
高等学校各项教学管理工作网络化发展迅速,学生考试系统无纸化是一个趋势,它可以节省人力、物力,提高考试效率.为此,设计出一种基于局域网的动态考试系统.此系统采用浏览器/W
张家界,地处湖南省西北部,“襟澧水而接五湖,拥武陵而通九州”,总面积9563平方公里,人口154万。张家界市以拥有世界一流的旅游资源名扬海内外,武陵源国家重点风景名胜区总面
全球已开发千余个目的层系埋深超过4500 m的油气田,深层油气勘探的重要性日益突出,而准噶尔盆地已开发目的层系埋深均浅于4500 m,尚未在深层取得突破。因此,有必要开展准噶尔盆地