论文部分内容阅读
时序是一种不同于其它类型的序列数据,它通过在离散的时间点取样形成。它在现实世界的许多领域广泛存在,例如:生物医学、金融、气象学、自然科学等。时序处理技术是一种非常重要而有价值的技术,已经在许多重要领域成功应用,例如:传感器网络监控、金融数据分析、DNA序列分析、移动对象跟踪以及运动捕获等。然而,时序是一种典型的高维和海量类型数据,当前时序处理技术依然面临很大挑战。围绕时序分段处理方法和分段时序的查询优化技术,展开了五个方面的研究工作:时序分段相关处理技术、基于聚类的静态分段时序的查询优化方法、基于分区的静态时序逆向近邻查询优化方法、动态分段时序的特定模式查询优化方法、基于网格的动态分段时序的相关模式查询优化方法。由于时序分段在时序处理技术中具有重要意义,针对缺乏动态非等长时序分段方法的问题,在详细分析了静态时序和动态时序的等长和非等长分段方法的基础上,利用点对累积近似(Piecewise Aggregate Approximation, PAA)和点对线性近似(Piecewise Linear Approximation, PLA)的增量计算特性,给出了一种多数据流的自适应分段算法QONSP,并证明了它仅有线性的时间复杂度。实验结果表明,QONSP能对上千个动态时序进行自适应分段,通过调节参数可控制分段的精度和平均长度。为了提高分段之后的静态时序的查询效率,研究了聚类对时序范围查询的影响。给出了一种基于等长分段的对称低边界函数SLBS,并证明了它下界于分段时序间的欧氏距离。利用SLBS,给出了基于聚类的静态时序范围查询优化方法RQIC,它同时集成了静态查询优化技术,包括:first-k过滤、三角不等式修剪以及低边界过滤。实验结果表明,RQIC在大部分数据集上保持了60%以上的修剪能力,且与PLA查询方法的查询性能接近。针对当前缺乏基于B+树索引的静态分段时序查询优化方法,研究了分段静态时序的逆向近邻查询优化技术。通过利用静态分段时序具有的普遍适应的性质:任意两个不同时序,它们如果从整体上且(或)在局部趋势上保持相似,则它们将可能是靠近的对象,对静态时序进行分区,并根据分区大小和分区相似度进行分区分裂和合并,将分区后的时序对象索引到一颗B+树中。最后,在著名算法iDistance基础上,给出了基于过滤-精炼框架的查询优化方法RiDistance。实验结果表明,RiDistance是有效的,它的查询效率比序列扫描方法快1-2数量级。在对分段之后的动态时序的查询处理方面,为了改进存在的模式匹配函数难以适应快速数据流模式长度和幅度变化的问题,研究了动态分段时序的特定模式查询优化方法。引入了一种新的模式相似距离函数,并证明它是一种度量函数,因而可以利用三角不等式加快模式匹配速度。同时给出了一种快速的模式匹配算法和一种基于统计信息预测可能出现的模式的概率算法。基于金融数据流的实验结果表明,给出的模式相似函数比其他同类函数更易适应幅度偏移和缩放的变化,查询方法能够监视大部分金融数据流中的特定模式。进一步地,针对子序列匹配相关性查询的缺点以及缺乏动态环境下的主题发现算法,研究了基于网格技术的动态分段时序相关性查询优化方法。引入了能适应长度和幅度的变化的局部模式相似函数SDD,并证明了它满足度量函数特性。利用前述的动态分段技术和SDD,给出了基于网格投影技术的相关性模型MCALP,它能够监控多数据流中的最小相关(交叉相关)和最大相关(主题相关),并证明了它的两个提高查询效率的性能定理。该模型包括监视最小相关的查询方法MCPDG和P-主题查询方法PMDGS。基于金融数据流的实验结果表明,提出的查询优化方法是有效的,仅具有线性的时间和空间复杂度。