论文部分内容阅读
时间序列数据广泛存在于日常生活中的几乎每一个应用领域。它们是实值型的序列数据,具有数据量大,数据维度高,以及数据不断更新等特点。时间序列分类问题与传统分类问题之间的主要区别在于,时间序列数据的各个变量之间具有次序关系,而传统分类问题认为属性次序是不重要的,并且变量之间的相互关系独立于它们的相对位置。因此,时间序列分类问题已成为数据挖掘领域的特殊挑战之一。时间序列分类问题主要面临着三个方面的挑战。首先,对于传统分类器而言,输入数据为特征向量,然而时间序列数据并没有明确的特征;其次,尽管可以在时间序列数据上进行特征选择,但由于其特征空间维度非常大,特征选择的过程会花费很大的计算量;最后,在某些应用中,除了精确的分类结果之外,我们还希望得到具有可解释性的分类器。但由于其没有明确的特征,建立一个可解释性的分类器是非常困难的。本文围绕以上三个问题深入研究如何建立具有可解释性的时间序列分类器,主要贡献如下:(1)研究得出一种基于逻辑shapelets转换的时间序列分类算法。时间序列shapelets是时间序列中最具有辨别性的子序列。首先,针对时间序列规范化过程缓慢的问题,通过应用一种基于智能存储和计算重用的技术,将发现shapelets的时间复杂度降低一个数量级;其次,为提升shapelet的辨别性,提出一种基于合取或析取的逻辑shapelets的转换方法。通过逻辑shapelets转换,将初始时间序列转换成新的非序列数据,同时也把时间序列的分类问题转化成了经典的分类问题。此方法在保持shapelets辨别性的同时提升了分类的准确性。(2)研究得出一种简单有效的shapelet剪枝和覆盖方法。首先,针对shapelets转换时相似shapelets过多的问题,提出一种基于shapelet分裂阈值的剪枝方法,用于过滤掉相似的shapelets,并大幅度减少候选shapelets样本的数量;其次,提出一种基于shapelets覆盖的方法来确定数据转换时shapelets的数量,并保证shapelets对实例的覆盖;最后,阐述如何将所提出算法扩展到逻辑shapelets转换中,并将所提出的算法和其他基于shapelets的时间序列分类算法,以及基于不同距离度量的1-NN基准分类器作对比,阐明所提出算法的分类准确性和可解释性。(3)首次将关联式分类器应用于普遍的时间序列分类问题中,阐述了基于SAX(Symbolic Aggregate approXimation)表示的关联式分类器在时间序列数据上的可解释性。首先,针对传统关联规则主要应用于符号型事务数据而无法应用于数值型时间序列的问题,采用SAX表示方法离散化并符号化时间序列;其次提出一种改进的CBA (Classification Based on Associations)算法,用于发现类序列规则并分类预测。在此基础上,提出一种懒惰式的关联式分类算法,避免产生过量规则,并保证规则对测试实例的覆盖。另外也评估了四种不同的类序列规则评价方式。(4)研究得出一种具有可解释性的基于动态时间弯曲(Dynamic Time Warping,DTW)的k近邻(k nearest neighbours, k-NN)分类器。k-NN分类器被认为是当前解决时间序列分类问题的基准分类器。针对其可解释性的不足,首先,提出了一种新的有效的时间序列加权模型,为每一条时间序列的每一个特征提供权值;其次,提出了两种不同的DTW加权方式来发现辨别性子序列,通过和其他基于非相似性度量的k-NN分类器相比较,展示了其可解释性;最后,将所提出模型扩展至多变量时间序列分类问题,并讨论其特殊情况,即加权欧式距离在时间序列分类问题上的应用;通过在多个公共数据集上与多个方法的对比,展现所提出模型在时间序列分类问题上的有效性与可解释性。上述结论从多种角度论述了时间序列分类器的构造和分类过程,展示了各个分类器在寻找辨别性子序列方面的高效性,提升了时间序列分类方法的可解释性,也为实际应用问题奠定了良好的基础。