论文部分内容阅读
分布式传感、计算技术的进步以及物联网(Io T)的发展创造了时空数据丰富的环境,大量复杂的数据被采集。在现代工业系统中,常常会安装多个传感器(空间索引)采集大量非线性波形信号数据(时间索引)。近些年来,相比较传统的信号处理方法,基于统计分析、机器学习的方法也被用来分析信号数据,例如主成分分析(PCA)、支持向量机(SVM)等。但是当涉及到多个传感信号时,这些方法并不能直接应用。多个传感器采集的数据也被称为多通道数据,数学上可以用张量来表达,对其建模的过程和分析变得更加复杂,因为需要考虑不同传感器通道之间的相互关系。一方面,多通道数据在时间、空间表现出变异和交叉相关性,这有利于挖掘数据内在的联系,设计更有效的系统并做出更好的决策。另一方面,由于数据的高维度、异质性和复杂的互相关性,张量数据的建模和分析已成为相当大的挑战。本文针对多通道数据的特征提取,过程监控和异常检测,提出了新的方法来对张量数据进行建模和分析。本文的主要工作如下:1.基于不相关多重线性主成分分析以表征多通道数据的相关性和变异在一些多传感器数据融合的研究中,每个样本中的各传感器采集一个数据点(标量),则S个传感器采集了S个标量值,其可以表达为一个×的矩阵(M是样本数)。但在本文中,每个样本中的各传感器采集N个数据点(向量),则S个传感器采集了S个向量数据,其可以表达为一个××的张量。在该情况下,类似PCA的向量型方法不能应用。为了解决该问题,需要开发一个能保持张量数据结构并考虑通道间相互关系的方法。本研究开发了一种基于多重线性的PCA——不相关多重线性主成分分析(UMPCA:Uncorrelated Multilinear Principal Component Analysis)来解决这个问题,基于PCA的原因主要有三点:(1)相比一些机器学习方法(如神经网络),PCA包含变量的线性变换,具有更好的可解释性;(2)PCA可以通过解释不同变量的相关性来分析异质数据;(3)现已有很多研究应用PCA分析工业数据,但基于高阶拓展的PCA分析多通道数据的相关研究很少。相比较直接向量化的方法,UMPCA可以在不破坏张量数据结构的基础上,直接作用于张量数据。通过“张量——向量”的投影,将张量数据映射到低维的向量空间,以投影后的特征方差最大为目标,基线性无关为约束,利用启发式迭代求解一组初级多线性投影向量集,并重构为一组特征张量来表征通道间的相关性和变异。本研究的主要目标是提出一种基于UMPCA的方法来分析多通道数据并提取一组特征张量。蒙特卡洛模拟和真实案例研究的结果表明,提取出的特征张量能精确地表征各通道之间的相关性和变异大小。2.一种新的基于张量特征提取的过程监控方法前一部分研究重在多通道张量数据知识的提取,以发现工业系统内在的联系并对系统性能进行推断。在第二部分研究内容中,进一步考虑了如何监控多通道数据。多通道数据采样于一个高维的张量空间中,其复杂性和高维度使得数据本身难以被监控。因此,需要开发一种特征提取方法,可以有效地从高维张量数据里提取潜在的低维特征以用于过程监控。近些年来,有学者提出了多重线性主成分分析(MPCA),在张量各阶下寻求一组能最大化方差的投影矩阵。在应用MPCA后,可以提取低维的核心张量。但是,基于PCA方法的局限性在于这些方法没有充分利用数据的类别标签。另外,由于很多过程监控的控制图是为标量或者向量设计的,因此还是无法监控提取出的核心张量特征。线性判别分析(LDA)是一种有监督的特征提取方法,基于线性的LDA不能直接应用于张量数据,此时也可以进行张量数据向量化,但是同理,这种方法没有充分利用到多通道数据的丰富信息。本研究提出了一种新的特征提取方法以监控多通道数据。首先应用MPCA从输入的高维多通道数据中提取核心张量,然后逐个展开该张量的各阶,将张量的各纤重新排列成一个二阶矩阵。得到的数据维数可能很高,而在工业实际应用中,训练的样本数通常比较少而无法代表其类别的真实特征。因此,不少学者采用了正则化方法,通过加上1、2范数来解决分解矩阵奇异性问题。当获得二阶特征矩阵时,相比较一般的正则化方法,本研究根据数据类别的可区分性提出了一种特征选择策略,选择出能最大化类间方差和类内方差比的特征,最后再结合LDA进一步提取出低维特征。本研究首先提出了一种新的结合多重线性和线性、具有特征选择策略的特征提取方法,以提高多通道数据的可分离性,最后融合了多元控制图以进行过程的监控。蒙特卡洛模拟和真实案例研究的结果表明,相比较其他方法,所提出的方法能检测出更多的异常值。3.一种基于改进的不相关多重线性判别分析的故障诊断方法上一研究结合了基于线性LDA的特征提取方法以实时监控张量数据,该方法最后提取的特征数受限于样本的类别数。在本研究中,进一步深入研究基于多重线性的LDA提取更多的特征以用于工业系统中张量数据的故障分类和诊断。在模式识别中,有学者提出了一种不相关多重线性判别分析方法(UMLDA:Uncorrelated Multilinear Discriminant Analysis)以用于人脸识别和图像处理。与非监督的UMPCA相比,UMLDA是一种有监督的多重线性特征提取方法,在提取特征时会考虑样本的类别信息,因此更适合模式的识别。尽管UMLDA在人脸识别和图像处理中有了一些探索性的研究,但是未有相关研究应用UMLDA算法分析多通道数据以进行工业系统的故障诊断。本研究第一次应用UMLDA分析多通道张量数据以显示其在故障诊断中的优越性。但是,UMDLA算法有两个局限性:(1)初始化:由于UMLDA在求解上没有解析解,因此采用启发式算法迭代求解投影向量。但是,应该如何初始化初级多线性投影向量集?(2)投影顺序:当在一种张量模下计算投影向量时,需要固定张量的其他模。求解模的顺序也影响最终的识别正确率。为了解决第一个问题,有研究提出了Regularized-UMLDAAggregation(R-UMLDA-A)来聚合不同的初始化方法,以减少初始化的影响。然而,针对第二个问题,无论从算法还是数据的角度仍无法确定最佳投影顺序,这仍是一个开放性的研究问题。本研究提出了一种改进的基于张量到张量全映射投影的UMLDA(IUMLDA)方法,数据信息在张量各阶上按照重要性依次排列,以削弱投影顺序的影响,从而提高识别的准确率。然后基于“张量——向量”的投影,以基线性无关为约束,采用启发式迭代求解一组能最大化费舍尔判别标准的初级多线性投影向量集。蒙特卡洛模拟和真实案例研究的结果表明,相比较其他方法,所提出的方法在不同故障的分类中有更高的识别准确率并能减少正确率的波动。本文提出的所有方法都通过蒙特卡洛模拟和真实的案例数据测试,以论述所提方法的有效性。另外,所提出的方法具有通用性,可以应用于具有数据采集和分析的系统中。部分研究成果已在实际的工业系统中应用,并取得了一定的实际价值和经济效益。