时间序列分类算法研究

来源 :北京交通大学 | 被引量 : 36次 | 上传用户:hufei1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
时间序列数据广泛存在于日常生活中的几乎每一个应用领域。它们是实值型的序列数据,具有数据量大,数据维度高,以及数据不断更新等特点。时间序列分类问题与传统分类问题之间的主要区别在于,时间序列数据的各个变量之间具有次序关系,而传统分类问题认为属性次序是不重要的,并且变量之间的相互关系独立于它们的相对位置。因此,时间序列分类问题已成为数据挖掘领域的特殊挑战之一。时间序列分类问题主要面临着三个方面的挑战。首先,对于传统分类器而言,输入数据为特征向量,然而时间序列数据并没有明确的特征;其次,尽管可以在时间序列数据上进行特征选择,但由于其特征空间维度非常大,特征选择的过程会花费很大的计算量;最后,在某些应用中,除了精确的分类结果之外,我们还希望得到具有可解释性的分类器。但由于其没有明确的特征,建立一个可解释性的分类器是非常困难的。本文围绕以上三个问题深入研究如何建立具有可解释性的时间序列分类器,主要贡献如下:(1)研究得出一种基于逻辑shapelets转换的时间序列分类算法。时间序列shapelets是时间序列中最具有辨别性的子序列。首先,针对时间序列规范化过程缓慢的问题,通过应用一种基于智能存储和计算重用的技术,将发现shapelets的时间复杂度降低一个数量级;其次,为提升shapelet的辨别性,提出一种基于合取或析取的逻辑shapelets的转换方法。通过逻辑shapelets转换,将初始时间序列转换成新的非序列数据,同时也把时间序列的分类问题转化成了经典的分类问题。此方法在保持shapelets辨别性的同时提升了分类的准确性。(2)研究得出一种简单有效的shapelet剪枝和覆盖方法。首先,针对shapelets转换时相似shapelets过多的问题,提出一种基于shapelet分裂阈值的剪枝方法,用于过滤掉相似的shapelets,并大幅度减少候选shapelets样本的数量;其次,提出一种基于shapelets覆盖的方法来确定数据转换时shapelets的数量,并保证shapelets对实例的覆盖;最后,阐述如何将所提出算法扩展到逻辑shapelets转换中,并将所提出的算法和其他基于shapelets的时间序列分类算法,以及基于不同距离度量的1-NN基准分类器作对比,阐明所提出算法的分类准确性和可解释性。(3)首次将关联式分类器应用于普遍的时间序列分类问题中,阐述了基于SAX(Symbolic Aggregate approXimation)表示的关联式分类器在时间序列数据上的可解释性。首先,针对传统关联规则主要应用于符号型事务数据而无法应用于数值型时间序列的问题,采用SAX表示方法离散化并符号化时间序列;其次提出一种改进的CBA (Classification Based on Associations)算法,用于发现类序列规则并分类预测。在此基础上,提出一种懒惰式的关联式分类算法,避免产生过量规则,并保证规则对测试实例的覆盖。另外也评估了四种不同的类序列规则评价方式。(4)研究得出一种具有可解释性的基于动态时间弯曲(Dynamic Time Warping,DTW)的k近邻(k nearest neighbours, k-NN)分类器。k-NN分类器被认为是当前解决时间序列分类问题的基准分类器。针对其可解释性的不足,首先,提出了一种新的有效的时间序列加权模型,为每一条时间序列的每一个特征提供权值;其次,提出了两种不同的DTW加权方式来发现辨别性子序列,通过和其他基于非相似性度量的k-NN分类器相比较,展示了其可解释性;最后,将所提出模型扩展至多变量时间序列分类问题,并讨论其特殊情况,即加权欧式距离在时间序列分类问题上的应用;通过在多个公共数据集上与多个方法的对比,展现所提出模型在时间序列分类问题上的有效性与可解释性。上述结论从多种角度论述了时间序列分类器的构造和分类过程,展示了各个分类器在寻找辨别性子序列方面的高效性,提升了时间序列分类方法的可解释性,也为实际应用问题奠定了良好的基础。
其他文献
为了有效降低柴油机微粒捕集器DPF压降,通过建立DPF灰分模型和压降模型,运用数值计算的方法研究了非对称孔道DPF的压降特性及其影响因素.研究结果表明:增大DPF进、出口孔道直
为了减轻滤油过程中现场工作人员的负担,针对滤油过程经常出现的油管脱落问题,设计了滤油机现场智能监控系统。该系统由视频监控部分和自动跳闸装置组成,可将滤油现场以视频
微观审慎监管的局限性和系统性金融风险传染性的增强,使商业银行宏微观审慎协调监管成为当前金融监管改革的趋势。本文选取2008-2017年我国14家上市商业银行半年度数据为样本
将乐县气候宜人,名胜古迹众多,可开发的旅游资源丰富,发展特色旅游,是该县经济发展的一个重要途径。水土流失较为严重,洪涝灾害频繁、生态环境不断恶化,投入不足等因素严重制约着该县旅游经济的发展。必须加强水土保持工作,将保护自然资源与发展商品经济相结合,为旅游业的发展创造一个良好的自然和人文环境。
摘要:文中设计了基于C8051硬件的油烟监测系统。系统以低成本、低功耗C8051F021芯片为核心处理器,扩展了外围接口电路,具有液晶显示、GPR无线通信等模块,实现了数据的自动采集、处理、存储、显示和查询等功能,通过GPRS无线通信模块与数据监控中心主机进行通信,实现了远程数据的实时传输。经测试验证,该系统具有稳定性高、使用寿命长、应用场合的适用性强、可扩展性高、功耗低、成本低、体积小以及易于安