论文部分内容阅读
信息技术在不断发展,随之而来的是越来越多的实际工程应用中需要处理一种海量数据,这种数据具有瞬变性、实时性以及无限性等特点,称之为数据流。数据流最早出现在传统的银行和股票交易领域,现在也出现在地质测量、环保、气象、天文观测等领域。尤其是在互联网络,比如网络流量监控、点击流量等以及无线通信网络。由于大多数的这类数据的维度较大,因此能够持续自动产生大量的细节数据。对于这些领域的数据可以进行包括趋势分析、预测等等这类复杂的分析,这些操作可以在数据仓库中进行脱机处理,而在网络安全和国家安全应用领域中,对时间都非常敏感,如复杂人群监控,趋势监控,探查性分析,检测互联网上的极端事件、入侵、异常、欺诈以及和谐度分析等,都需要在线进行及时分析。因此通常都需要对数据流进行近实时的复杂分析。频繁模式挖掘、分类以及聚类是数据流的三个主要分析方面,这三类都用到了一些如滑动窗口技术的新方法和新技术。本文通过介绍数据流和数据流聚类算法,针对桥梁健康监测数据进行分析,提出了一种改进的基于特征投影和拟合的数据流聚类算法(HpFitStream)。该算法结合滑动窗口技术和拟合算法对数据流进行聚类预处理,并将聚类之后的数据流的统计特征存储于概要数据结构中,运用统计分析学的相关理论对数据流中的数据点进行相关分析,掌握和了解数据流的特征和变化趋势,从而有效地分析被监测对象的状况,为被监控对象在发生严重异常时,进行早期预警,以及维护、维修与管理提供保证。本文的研究主要集中在以下几个方面:①概述数据流,并从数据流的处理功能出发,介绍现有的数据流处理模型,包括滑动窗口模型、界标模型以及快照模型,总结现有数据流模型的优缺点。以研究内容和研究目的为出发点,本课题选择了基于滑动窗口的数据流处理模型,以保证数据处理的可靠性以及稳定性,并分析可行性。②介绍数据流聚类分析的概念、经典数据流聚类算法。目前聚类分析中大部分聚类算法都是针对低维数据流的,而现实中需要处理的数据往往大部分都是高维的,因此本文也介绍了高维数据流的聚类算法。针对桥梁健康监测数据的多维性,在经典数据流的聚类算法基础上,本课题提出了一种改进的数据流聚类算法,基于特征投影和拟合的高维数据流聚类算法(HpFitStream),实现对大量的、动态的、高维数据流的聚类。该算法结合滑动窗口技术,采用特征向量投影实现高维数据流的降维处理,并采用多项式拟合算法对原始数据中的异常数据进行预处理。③在聚类结果的基础上,课题提出了一种新的数据流趋势分析方法,基于滑动窗口的数据流分段趋势分析,该方法采用滑动窗口算法对数据流进行实时快速的分割,应用最小二乘法对滑动窗口中的数据流进行非线性的多项式拟合,并对对数据进行预测分析。在应用最小二乘法对数据流进行趋势分析后,若数据流没有异常,可根据拟合算法对不同时期的数据进行预测,观察数据更详细的趋势发展。经实验结果证明,本文聚类算法不仅能有效压缩数据,节省内存空间,还能大大缩短数据处理时间,有效提高聚类质量。且分段趋势分析方法,也大幅度提高了数据处理速度。