论文部分内容阅读
时间序列分析正成为数据挖掘研究的热点,时间序列的相似性搜索问题是时间序列研究的重要方面。尽管关于时间序列的研究文献为数众多,但从数据挖掘的角度对时间序列相似性进行研究是近10年来才出现并逐渐发展的。目前,国内外学者和研究人员采用不同的方法围绕时间序列相似性的研究已取得了一定的成果,并在股票等领域有了一定的应用。但由于时间序列本身的复杂性,尽管这些研究各具特色,却难以形成统一而实用的方法。而且,许多方法和理论在大数据集上的实际应用有待探索。 水文数据库中存在大量时间序列数据,发现水文时间序列中蕴藏的规律,有利于掌握水文数据变化规律和趋势,在洪水预报、防洪调度方面有重要的现实意义。论文在深入研究和比较各种方法的基础上,探索适合水文数据特点的时间序列相似性搜索的方法。主要工作包括: (1)提出了适合水文时间序列数据特点的相似性模型,采用简单直观的等时间间隔序 列分段平均值技术(PAA)作为水文时间序列降维方法。 (2)结合滑动窗口和MBR方法实现子序列相似查询,在特征空间上利用MBR存储 代替点存储,并采用R~+_-树作为多维索引结构。 (3)讨论了水文时间序列预处理的相关技术。通过补全缺失数据、平滑噪声数据、消 除不一致数据等技术,得到高质量的数据。 (4)基于上述模型,设计并实现了一个水文时间序列的相似性查询实验系统,通过在 人工数据集及实际水文数据集上的实验,对模型方法的有效性和正确性加以验 证。