面向相似性的时间序列数据挖掘研究

来源 :东华大学 | 被引量 : 23次 | 上传用户:lingyuehqu2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是按时间顺序排列的、随时间变化且相互关联的数据序列,在经济、金融、科学观测和工程等各个领域都广泛存在。如何有效地管理和利用这些历史时间序列,发现这些数据背后隐含的规律和知识,是人们广泛关注的问题。与传统时间序列分析提出假设然后进行验证的数据处理方法不同,时间序列数据挖掘适合发现型任务,能够从大量历史数据中挖掘出潜在的、未知的、有价值的知识。本文以面向相似性的时间序列数据挖掘为主题,从时间序列的相似性研究出发,研究了时间序列的表示方法、时间序列的相似性度量、相似性搜索和索引、时间序列数据挖掘的原型系统等问题。本文的主要研究工作和成果概括如下:(1)提出了分段极值特征提取的时间序列表示方法。本文在分析和比较了原有的各种时间序列表示方法后,以分段线性表示法为基础,参考界标模型的思想,提出了分段极值特征提取的时间序列表示方法,克服了很多其他时间序列表示方法都无法同时客观地描述时间序列的整体趋势和局部特征的矛盾。本文并以实验数据验证了该算法的正确性和高效性。(2)提出了分段极值DTW距离的相似性度量方法。本文在立足于几种典型的时间序列相似性度量方法基础上,通过各种方法的分析比较与借鉴,提出了一种基于分段极值DTW距离的时间序列相似性度量方法,并通过实验验证了该算法的有效性与准确性。与欧氏距离相比,该方法有更广的适用性,能够对发生时间轴伸缩和弯曲的序列进行相似性度量,并且保证了度量的准确性;与传统的DTW距离算法相比,分段极值DTW距离算法在计算效率上得到了大大提高,克服了DTW距离算法计算量大的问题,这也为时间序列数据挖掘的实现奠定了基础。(3)研究了基于DTW距离的时间序列相似性搜索。为了能够在海量的时间序列数据库中快速、准确地进行相似性搜索,本文首先运用多维空间索引结构R~*-树对预处理过的时间序列进行索引,以此提高了相似性搜索的效率。在此基础上,以DTW距离作为相似性度量方法,保证了度量的鲁棒性。最后通过R~*-树的索引查找来实现时间序列的相似性搜索。本文同时以三种典型的相似性搜索算法证明了在时间序列数据库中进行全序列匹配搜索和子序列匹配搜索的可行性。(4)提出了一个集成的时间序列数据挖掘原型系统的结构模型。时间序列分析系统在许多领域中都有很强的应用价值,在分析比较了以往的时间序列分析系统和工具的功能特点后,提出了一个集成的时间序列数据挖掘原型系统的结构模型,并阐述了该原型系统的具体应用。
其他文献
近年来,在民事诉讼法修改的论证过程中,民事起诉制度渐成为炙手可热的新焦点。面对现行起诉制度的改革问题,理论界与实务界分化为两大阵营,理论界坚持以起诉登记制度改革当前立案
介绍了重防腐涂料优异的防腐性能和施工性能,结合国内外重防腐涂料厂家的发展情况提出了其主要的发展方向。
目的观察腹腔置管持续腹腔引流治疗肝硬化大量腹水(含顽固性腹水)的临床效果。方法选择贵州省黔东南州锦屏县人民医院收治的肝硬化大量腹水患者78例,随机分为腹腔置管持续腹
可德兰(Curdlan,β-1,3-D-葡萄糖苷多聚糖)在日本、美国已被允许作为食品添加剂,应用于多种加工食品中,在制药领域还没有应用。本实验以茶碱为模型药物,制备了茶碱可德兰口服缓释
本文從詞義着手,對《說文解字》中的詞語進行窮盡性考察,找出其中的軍事詞,對它們進行分類、解釋,并指出它們的特點,解析軍事詞中所蘊含的古代文化信息。論文主要由四個部分構成:一
<正> 一、关于《长生殿》的主题 关于《长生殿》的主题历来众说纷纭,莫衷一是,主要有以下几种论点: 1.“爱情主题”说。持这种论点者认为:李杨爱情既是剧中描写重点,也是剧本
本文一方面证实在中国文化下工作嵌入的维度和结构,另一方面把工作嵌入分为二维度:工作内嵌入和社区嵌入,研究工作嵌入与工作满意度、组织承诺和员工离职这三个变量之间的关
从古时的“一日为师,终身为父”到当代的“亦师亦友”,师生关系一直都受到众人的关注。初中阶段是个体成长中的一个特殊时期。随着社会的发展,传统的初中师生关系受到严峻挑战,师
在供应链管理环境下,库存管理打破了传统企业各自为政的库存控制方式,服务业也日益重视从供应链的角度研究库存决策问题。电器维修企业最重要的目标之一就是在满足顾客服务要求
目的对2004年1月至2006年6月在我院行经动脉新辅助化疗的中、晚期宫颈癌患者进行回顾性分析,探讨顺铂+吡柔比星+5-Fu方案经动脉新辅助化疗治疗中晚期宫颈癌患者的疗效和临床