论文部分内容阅读
多维时间序列(Multivariate Time Series,MTS)是多维变量按照时间顺序所记录的一系列观察值的集合。聚类技术是分析理解MTS的重要方法之一。已有的基于模型的MTS聚类算法在处理不等长多维时间序列时存在时间开销较大的问题。快速存取记录器(Quick Access Recorder,QAR)记录了航空器飞行过程中一系列参数取值,QAR数据是典型的MTS数据。飞行品质监控(Flight Operational Quality Assurance,FOQA)通过分析QAR数据保障民航飞行安全,然而目前FOQA只能根据监控项目检测超限事件,无法发掘监控项目外的潜在数据异常。为此,本文围绕多维时间序列聚类及其在QAR数据上异常检测的应用开展了以下研究工作:(1)提出了一种基于Lift Ratio(LR)分量提取的MTS聚类算法(Multivariate time serise clustering algorithm<component extraction of LR>,MUTSCA<LRCE>)。该算法采用等频离散化方法符号化MTS;计算用于表达MTS样本各维时间序列之间时序模式的LR向量,对每个LR向量进行排序后从其两端提取固定数目的不同关键分量,所有提取的关键分量拼接形成表示MTS样本的特征向量,该过程将不等长MTS样本集转换为等长的特征向量集;最后采用k-means算法对生成的等长模型向量集进行聚类分析。在多个公共数据集上的实验表明:与已有方法相比,所提算法能够在保证聚类效果的前提下,显著提高不等长MTS数据集的聚类速度。(2)提出了一种基于主成分分析层次聚类算法(Hierarchical Clustering based Principal Component Analysis,HC-PCA)的QAR数据异常检测方法。该方法首先采用(1)中的MUTSCA<LRCE>聚类算法对以航班为单位QAR数据集进行聚类分析,找出离群航班;然后将离群航班的QAR数据转化为用夹角余弦表示的单维时间序列。利用滑动窗口机制从夹角余弦序列提取等长的子序列特征,并由这些子序列特征生成一个矩阵,对该矩阵进行PCA降维,依据降维后矩阵各列信息量大小对矩阵的行向量进行自顶向下的分层聚类。依据聚类树节点中包含的向量个数检测异常节点;由异常节点中每个向量在夹角余弦序列中的生成位置合并为离群航班QAR数据的异常数据片段。实验结果表明,该方法不但可以检测异常航班,而且可以对异常航班QAR样本内部异常进行细节定位。