时序数据规则发现算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:gzbfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据是一类普遍而又广泛存在的数据类型。随着数据采集、存储和计算能力的提高,时序数据挖掘将会受到人们愈来愈多的关注和发展。时序规则发现研究主要是通过对时序数据的算法研究分析获得或归纳出数据所反映的研究对象潜在的变化规律或模式,从而帮助人们提高对研究对象的认知,提供相应的信息支持如预测,在自然科学研究和生产应用方面都具有重要的研究价值。目前有关时序规则发现的算法研究还比较少,还没有得到广泛的实际应用。 数据预处理在数据挖掘流程中具有重要作用,是挖掘算法的研究前提和基础。本文在对离散傅立叶去噪声平滑数据算法分析的基础上,针对时序数据,提出了通过筛选傅立叶变换系数来提高计算效率的改进方法;接着对两类数据归约算法进行了分析:分段平均值近似PAA算法将数据序列进行数值标准化压缩降维,符号化累积近似SAX算法将数据进一步压缩和符号转换,为模式搜索EMMA算法研究和规则可视化技术提供挖掘数据源。 如何有效的在时间序列中查找频繁子序列,从而揭示或归纳出研究对象潜在的运行规律或模式的算法研究是目前时序数据规则发现的重要研究内容。矩阵近似列举模体搜索算法EMMA利用滑动窗口将经过预处理的符号化分段子序列存入hash表,通过搜索具有最多子序列数量的hash表范围区间,并调用ADM搜索算法得到最频繁子序列。在此基础上,通过对模式搜索算法的改进,解决“同一模式重复发现”的问题,同时减小了计算复杂度,以实例仿真和算法评估来验证分析。 可视化技术提供了一种在用户和研究对象之间的图像交互方法,利用容易理解的图形、图表等直观的表现方式来表示对象特征。从时间序列数据的整体特征角度考虑,利用数据可视化技术,针对具有明显时间周期性的时序数据,以图像呈现的方式来反映出数据的特征分布,从而得到时序规则归纳。通过三类可视化技术:族线、旋转图、可视树的实现方法和实例分析,验证了规则可视化研究方法的可行性和有效性。 本文最后从数据挖掘应用角度考虑,设计并实现了网络数据挖掘平台DBNetMiner。首先利用UML统一建模语言来设计平台的模型结构和功能流程,以VB.net和SQL数据库程序进行平台界面设计,然后给出了一种方法将matlab挖掘算法文件编译成com组件形式嵌入到仿真平台中,实现平台的挖掘功能,最后给出了程序展示和扩展补充说明。对数据挖掘实际应用提供一定的参考价值。
其他文献
期刊
期刊
期刊
本文设计了基于PC的探针台数控系统,该系统采用PC+电机控制卡+图像采集卡的形式构建。 本文提出了针对探针台系统的数控软件的设计方法,分析了其软件的总体结构。按照面向对
期刊
期刊
孙寿名(1916$1949),名义德,寿名为字,以字行于世。1916年12月生于固原县彭堡乡隔城子。寿名生性慧敏,长相俊逸,富有正义感。幼年就读于村塾,聪明好学,深得塾师青睐。1930年以
期刊
期刊
期刊