基于符号化的时间序列相似性搜索研究

来源 :兰州理工大学 | 被引量 : 0次 | 上传用户:tianledaishumama
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列作为一种重要的复杂类型数据,它普遍存在于现实生活中,诸如气象、股市、金融、天文等领域。因此对时间序列的相似性研究也逐渐成为数据挖掘的研究热点之一。时间序列采用一个或多个变量来描述事物的特征,因而对时间序列的数据挖掘有助于决策者进行正确的决策,所以对时间序列数据挖掘的研究具有重要的现实意义。  时间序列的符号化方法是时间序列相似性研究的重要思想之一。符号化方法主要是将时间序列映射到某个特定的特征空间,较大程度上约简时间序列的维数,根据时间序列在特征空间中所表现出的特征相似性来代替原始序列的相似性,再采用一定的策略来提高搜索效率。  通过阅读以及研究大量国内外基于符号化的时间序列相似性搜索领域相关文献,本文系统的研究总结了当前基于符号化的时间序列相似性搜索方法的发展状况,以技术发展框架为前提,对符号化方法发展各个阶段中的经典算法进行了详细的描述和分析,指出所存在的问题,并在此基础上提出了相应的解决方法,本文主要研究工作包括:  (1)本文根据 SAX方法的思想,提出基于均值和斜率的符号化方法描述时间序列的相似性。该方法首先对数据进行预处理,将数据转换成标准的正态分布,为后面的符号化处理做准备;然后将序列进行分段,提取出每一个子段的均值和斜率信息,并将它们转换成相应的符号,用模式序列代替原始序列;最后,通过模式序列中的均值和斜率每个符号出现的次数和位置的区别来进行相似性度量。  (2)在时间序列数据挖掘中,分层思想的应用能够有效的降低整个算法的时间复杂度,本文利用分层思想将符号化方法和序列与坐标轴围成的面积结合在一起。该方法首先将序列分段,把序列的形态符号化,利用表达形态的模式序列进行粗匹配,然后再利用每个预处理后的分段序列和坐标轴围成的面积之间的差异进行细匹配,最终的实验表明该方法能够有效地应用于时间序列的相似性匹配。
其他文献
随着移动终端的发展,4G网络的普及以及 WiFi覆盖范围的不断扩大,人们可以随时随地的享受流媒体服务,这导致互联网上的流媒体数据传输量急剧增加,给现有的流媒体系统带来了巨大的
语音合成的任务是将文字的输入自动转换成语音的输出。它在公共信息咨询与发布、语音应答、电子邮件中的语音服务、文稿校对、自动口语翻译以及残疾人语音辅助等许多方面有很
随着社会的发展,人们对互联网络依赖程度逐渐增强,其互联网应用及计算模式也日益丰富,TCP/IP体系结构目前已经开始无法满足互联网持续发展的需求,在安全可控性、移动性,尤其
随着智能硬件、传感网络、无线通信等技术的不断发展,推动了物联网技术在工业制造领域的应用。电机制造业生产工序繁多,生产管理复杂,同时对制造过程中生产实时状态及产品寿命周期等的实时监控能力弱,造成了系统信息管理与实时生产信息的更新之间存在着断层。将物联网引入到电机制造过程,实现电机制造企业生产制造的实时监控及全方位管理,有助于解决电机制造企业管理与控制的断层。本文研究物联网系统在电机制造过程与信息管理
图像数字水印是把秘密信息以水印的形式嵌入到数字图像中,通过水印信息保护载体图像。传统的数字水印算法在提取水印后无法无损地恢复原始图像,在敏感图像领域,嵌入信息所引起图
Java语言的面向对象、跨平台、语言级并发支持、安全等特性不仅使它在互联网领域得到广泛应用,也引起了嵌入式领域研究人员的高度重视,Sun公司希望能将Java语言改造成实时系统
随着计算机图形学的迅速发展,各种建模方法及其系统也随之产生。目前,最为常用就是WIMP建模方法。但是其缺点就是操作复杂,难以掌握,不易实现人的自然绘图方式表达。因此针对WIMP
模型纹理绘制技术是绘制真实感图形最为常用的重要技术之一,它能有效模拟和增强景物表面的细节特征,而不需要增加几何模型的复杂度,在三维游戏动画、虚拟现实、计算机辅助设
网间结算系统是保证各电信运营企业间能够及时、准确的进行互联结算的业务支撑系统,也是运营商实现业务收入的核心保障系统。第三代移动通信系统(3G)带给我们的是更为丰富、多
支持向量机(SVM)是由Vapnik在统计学习理论的基础上提出的一个新的通用的机器学习方法。由于在学习问题中出色的泛化性能,支持向量机已经引起广泛关注并应用于多个领域当中,