时间序列流数据的建模预测和异常检测方法研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:cheerlucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列是按照时间顺序采集到的某观测变量的数据集合,广泛地存在于金融、电力负荷和过程控制等领域中。时间序列在流数据环境下呈现出海量无限、单遍扫描、实时到达和伴有噪声的特点。通过实时建模的方式挖掘出时间序列流数据的运行规律,并在建模预测的基础上分析出隐藏于数据中的异常模式,可以对实际的生产、生活产生更加积极的影响。针对现有大多数静态、离线的时间序列建模预测算法不能在流数据环境下进行实时分析的问题,本文就时间序列流数据的建模预测中如何选择训练样本,满足实时性要求的同时提高模型的预测准确性等问题,设计了一种基于GEP算法,并加入双重滑动窗口、群体爬山算法和数据融合方法来实现对时间序列流数据进行实时建模预测的算法。以4组加入不同程度高斯噪声的数据集作为测试数据集,将本文算法和HTM算法在同等数据传输间隔的实时性要求下对测试数据集的预测结果进行实验对比。用平均相对百分比误差(MAPE)值作为评判算法预测准确性的指标。实验结果显示本文算法在4组数据集上的整体MAPE值均低于HTM算法,表明了本文算法比HTM算法拥有更高的预测准确性。鉴于现有的大多数时间序列异常检测算法用于批量处理数据,不能直接应用于流数据环境下的异常检测,以及现有文献中基于时间窗口分布和分类的时间序列异常检测方法,仅注重于检测时间序列空间上的异常离群点,未考虑到不满足时间序列上下文数据运行规律的异常数据点。在本文时间序列流数据实时建模预测算法的基础上,设计了一种能自适应的改变检测模型阈值的异常检测方法解决了现有文献关于异常检测模型的阈值设置问题,其主要以预测模型产生的预测值和实际观测值之差的绝对值是否超过阈值来判断实际数据是否为异常数据。将本文算法和ARIMA算法在4组加入不同百分比异常值的数据集上进行异常检测对比实验,以查全率和误报率两个指标分别来评判算法的检测准确性和稳定性,实验结果表明本文算法在相比于ARIMA算法在加入2%和4%异常值的4个数据集上拥有更高的查全率和更低的误报率,表明了本文算法比ARIMA算法拥有更高的异常检测准确性和稳定性。
其他文献
乳腺癌是女性中最常见的恶性肿瘤之一,同时是一种异质性疾病。癌症亚型特异性驱动基因的识别对乳腺癌的诊断、预后和治疗具有重要意义。随着下一代测序技术的快速发展,一些大
在这篇文章中,我在这里计算了4维带边旋流形的低维体积,并计算了6维带边旋流形的低维体积Vol41,1和Vol62,2,且得到相对应情况下的Kastler-Kalau-Walze类型定理,对4维和6维的
教育是国家发展的基石,课堂教学是教育的主阵地,教学模式是教学活动的基本形式。“五环”教学模式我校是基于建构主义,人本主义等理论,依据新课程理念,结合我校教学实际,进行
火箭作为人类探索宇宙的唯一运载体,其安全稳定的飞行直接决定了各种航天器的航空飞行任务能否顺利完成。为了准确跟踪火箭飞行过程中的状态信息,试验场内通过多种测控设备获
艺术作品的题材是指艺术作品在内容上的称谓。例如战争题材、神话题材、女性题材、宗教题材等等,都是对艺术作品内容按照一定规律进行的概括性强调。题材的重复性使用虽然是
无人驾驶中首要解决的一个问题是无人驾驶车辆的定位问题,依据定位信息在高精度地图中确定车辆的位置后,才能为无人驾驶车辆规划合理的行驶线路,并根据当前位置进行车辆控制
最小二乘辨识方法是系统辨识中一种基础且经典的辨识方法。在随机系统模型中,利用最小二乘法得到的估计结果具有很好的统计特性。输出误差类模型是一种常见的随机系统模型,包
电子送达是指经受送达人同意,法院利用电子邮件、移动通信等新型方式将诉讼文书发送给当事人及其他诉讼参与人的一种送达方式。2012年修订的《中华人民共和国民事诉讼法》正
假设p是一个奇素数,Fp是特征数为p的素数域.令O2+(Fp)表示Fp上的2次加型正交群.我们考虑O2+(Fp)在多项式环Fp[2V]=Fp[x1,y1,x2,y2]上保次的Fp-作用.本文找到了有限2次加型正交群
A企业在汽车零部件行业内提供热处理服务。随着市场的变化,近年来A企业面临着激烈的竞争;与此同时,内部质量控制始终得不到有效的提高。在新的形势下,A企业管理层提出了新的