分段时序查询优化方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:alex136629
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时序是一种不同于其它类型的序列数据,它通过在离散的时间点取样形成。它在现实世界的许多领域广泛存在,例如:生物医学、金融、气象学、自然科学等。时序处理技术是一种非常重要而有价值的技术,已经在许多重要领域成功应用,例如:传感器网络监控、金融数据分析、DNA序列分析、移动对象跟踪以及运动捕获等。然而,时序是一种典型的高维和海量类型数据,当前时序处理技术依然面临很大挑战。围绕时序分段处理方法和分段时序的查询优化技术,展开了五个方面的研究工作:时序分段相关处理技术、基于聚类的静态分段时序的查询优化方法、基于分区的静态时序逆向近邻查询优化方法、动态分段时序的特定模式查询优化方法、基于网格的动态分段时序的相关模式查询优化方法。由于时序分段在时序处理技术中具有重要意义,针对缺乏动态非等长时序分段方法的问题,在详细分析了静态时序和动态时序的等长和非等长分段方法的基础上,利用点对累积近似(Piecewise Aggregate Approximation, PAA)和点对线性近似(Piecewise Linear Approximation, PLA)的增量计算特性,给出了一种多数据流的自适应分段算法QONSP,并证明了它仅有线性的时间复杂度。实验结果表明,QONSP能对上千个动态时序进行自适应分段,通过调节参数可控制分段的精度和平均长度。为了提高分段之后的静态时序的查询效率,研究了聚类对时序范围查询的影响。给出了一种基于等长分段的对称低边界函数SLBS,并证明了它下界于分段时序间的欧氏距离。利用SLBS,给出了基于聚类的静态时序范围查询优化方法RQIC,它同时集成了静态查询优化技术,包括:first-k过滤、三角不等式修剪以及低边界过滤。实验结果表明,RQIC在大部分数据集上保持了60%以上的修剪能力,且与PLA查询方法的查询性能接近。针对当前缺乏基于B+树索引的静态分段时序查询优化方法,研究了分段静态时序的逆向近邻查询优化技术。通过利用静态分段时序具有的普遍适应的性质:任意两个不同时序,它们如果从整体上且(或)在局部趋势上保持相似,则它们将可能是靠近的对象,对静态时序进行分区,并根据分区大小和分区相似度进行分区分裂和合并,将分区后的时序对象索引到一颗B+树中。最后,在著名算法iDistance基础上,给出了基于过滤-精炼框架的查询优化方法RiDistance。实验结果表明,RiDistance是有效的,它的查询效率比序列扫描方法快1-2数量级。在对分段之后的动态时序的查询处理方面,为了改进存在的模式匹配函数难以适应快速数据流模式长度和幅度变化的问题,研究了动态分段时序的特定模式查询优化方法。引入了一种新的模式相似距离函数,并证明它是一种度量函数,因而可以利用三角不等式加快模式匹配速度。同时给出了一种快速的模式匹配算法和一种基于统计信息预测可能出现的模式的概率算法。基于金融数据流的实验结果表明,给出的模式相似函数比其他同类函数更易适应幅度偏移和缩放的变化,查询方法能够监视大部分金融数据流中的特定模式。进一步地,针对子序列匹配相关性查询的缺点以及缺乏动态环境下的主题发现算法,研究了基于网格技术的动态分段时序相关性查询优化方法。引入了能适应长度和幅度的变化的局部模式相似函数SDD,并证明了它满足度量函数特性。利用前述的动态分段技术和SDD,给出了基于网格投影技术的相关性模型MCALP,它能够监控多数据流中的最小相关(交叉相关)和最大相关(主题相关),并证明了它的两个提高查询效率的性能定理。该模型包括监视最小相关的查询方法MCPDG和P-主题查询方法PMDGS。基于金融数据流的实验结果表明,提出的查询优化方法是有效的,仅具有线性的时间和空间复杂度。
其他文献
本文通过发放问卷来衡量审计公告制度的效用以及风险,得出其对提高审计质量、提升审计机关形象等有较大作用,并会导致较高水平的公告风险的结论。同时,采用回归分析法实证检
线粒体是真核细胞中的动力工厂,细胞生命活动所需能量大多来自于线粒体氧化磷酸化.粟酒裂殖酵母是真核生物研究的模式生物.本研究借助基因敲除方法获得atp10基因缺失菌株Δat
高校研究生学位档案是高校研究生培养的重要历史资料。本文主要根据研究生学位档案的内容特点,指出目前档案管理的现状和问题,并提出一些解决此问题的对策。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:全球范围内,每年有将近150000人死于膀胱癌。目前,针对进展期膀胱,主要有内腔镜和开放手术、局部或系统性免疫治疗、放化疗等治疗方案,尽管这些治疗策略已经改善了治疗效果并延长了膀胱癌患者的生存期以及生活治疗,但该疾病仍然无法完全治愈而且还要具有高复发风险,并治疗预后均不太理想。近些年来学者们发现,有一群未或低分化的膀胱肿瘤细胞,他们称之为膀胱肿瘤干细胞,他们认为肿瘤的复发与不良预后与膀胱肿瘤
试验以仙客来"红芙蓉"为试材,用草炭、珍珠岩、牛粪、核桃壳按不同比例制成三种基质,研究对"红芙蓉"根际环境和生长发育的影响,结果显示:B草炭:珍珠岩=3∶1在仙客来生长发育的各项
针对学校教务处统计个人课时计算的繁琐问题,开发出一个基于Delphi的课时计算系统。利用ComObj方式动态访问Excel数据文件,从而实现打开、关闭Excel文件,复制、粘贴表格中某
开展读者教育服务是新世纪做好高校图书馆读者服务工作的一个重要方面。本文通过对读者教育概念、存在的问题以及完善读者教育与服务工作的方法的介绍,为军队院校图书馆的读者
档案工作是维护党和国家历史真实面貌的重要事业,档案人员素质的高低直接影响着档案工作的质量乃至整个档案事业的发展。因此,档案工作者必须与时俱进,强化教育培训,不断更新、优