论文部分内容阅读
在机器学习中,自适应多任务模式学习和外推算法可以广泛应用在气候预测、市场波动预警、环境监测、河流流量变化估计等物联网场景中。近年来,多任务高斯过程MTGPs(Multi-task Gaussian Processes)在学习任务间的协同关系和多任务并发预测上取得了显著的进展,比如:从线性结合相互独立的单任务高斯过程模型到直接对任务间的交叉协方差结构建模,使其可以有效地同时对多任务进行自适应模式学习,因而提高了多任务并发预测的精度。值得注意的是,所有这些具有代表性的MTPGs都必须对任意变量间两层相关关系进行编码,分别是单任务输入空间内随机变量的相关关系和任务间的协同关系,但是现有方法SM(Spectral Mixture)、GPRN(Gaussian Process Regression Network)、CSM(Cross Spectral Mixture)在可表达性和可解释性上还需进一步提升,MOSM(Multi-output Spectral Mixture)则存在多任务与单任务的兼容性问题,而这些问题都影响了自适应多任务模式学习和外推预测的准确率。为了纠正和更好地数学描述这两层相关关系,本论文提出了一种结构化可解释的通用卷积谱混合成分核函数GCSM(Generalized Convolution Spectral Mixture)来构造单任务高斯过程,然后利用这种核函数的交叉卷积机制将其平滑扩展到多任务高斯过程学习的场景中,从而得到了MOCSM(Multi-output Convolution Spectral Mixture)和GCSM-CC(Generalized Convolution Spectral Mixture with Cross Coregionalization)。首先,在高斯过程(Gaussian Processes,GP)机器学习中,表示能力较强的谱混合成分核函数SM可以自适应地从数据中发现模式、进行外推甚至描述变量间的负协方差。由于SM仅仅只是准周期高斯成分的线性加权级数,使得SM难以明确地表示这些成分间的依赖关系。本论文研究了SM成分间的依赖关系、依赖关系的时延和相位特点以及这些依赖关系的作用。通过分析后验协方差和代表性的实例,本论文提出了一种框架来分析这种依赖关系的存在性。进一步扩展SM使其可以明确地表示SM成分间的依赖关系,在本论文称之为GCSM。构造满足正定条件的GCSM可以分为两个步骤:1.改造SM成分成为使其可以包含时延θ和相位?,然后利用卷积将改造后的SM成分开根号分解为基成分;2.构造基成分之间交叉相关系数,本质上等同于交叉卷积,该交叉相关系数经过傅里叶变换后成为交叉谱密度。在该方法中,SM仅仅考虑到了基成分的自卷积。如果不考虑时延和相位,相比SM,GCSM没有额外增加超参数的数量。无论是在合成数据集还是在真实数据集上,全面的实验分析和比较表明对SM成分的依赖进行表示可以有效提高GP的自适应学习能力和外推性能,同时还可以利用交叉验证技术来设置依赖关系中是否包含时延和相位。这种性能提升在对自然现象的建模中特别明显,因为自然现象往往较少受到人类活动的干扰,而受到物理因素的相干干涉影响较大。其次,受到GCSM的启发,本论文利用交叉卷积来构造了一个新的多通道多输出卷积谱混合成分核MOCSM来解决多通道多输出高斯过程的自适应学习,在这里多通道多输出高斯过程和多任务高斯过程本质一样,一个通道输出对应于一个任务。在MOCSM中,利用交叉卷积来表示不同通道间的依赖关系,该依赖关系也具有时延和相位特点。MOCSM可以同时预测多个输出通道,并且具有更好的性能和兼容性。通过在合成数据集和实际物联网数据集上的全面实验表明MOCSM在自适应学习能力上具有明显的优势并且超过当前的最新模型。特别是,考虑一种特殊情况,即当只有一种输出通道需要拟合时,MOCSM可以完美的降级为SM,这是其他的模型所不具备的。与最近提出的MOSM模型做全面对比,在MOSM的幅度信息中混合了信号方差(signal variance)和距离缩放因子(length scale),当不同通道中的谱密度比较相似时,MOSM会产生不合理的局部协方差缩放效果。因此,显然MOCSM具有更好的自适应兼容性和普适性。然后,本论文进一步分析了MTGPs中的高斯过程回归网络框架GPRN,并且针对任务间的协同关系提出了一种参数化解释。GPRN用神经网络来表示多任务建模的协同关系,而在所有基于GPRN的方法中,全部使用了多个通道(神经元)的线性加权和来描述单个任务输入空间的变量关系和任务间的协同关系,而忽略了通道间的交互耦合。鉴于此,本论文赋予该神经网络的多个通道间存在依赖关系并对其进行编码。本论文提出了一种新的基于神经网络的多任务高斯过程模型,该模型可以同时模拟两层依赖关系,分别是单任务输入空间内随机变量内在成分间的依赖(即变量内在依赖)和任务间不同协同关系通道的依赖(任务交叉依赖),该模型提升了现有方法的可表达性和可解释性。具体而言,本论文利用交叉卷积来描述GPRN神经网络中各独立通道(神经元)之间的变量内在依赖,其中每个通道都由一个SM成分来描述,再利用耦合区域协同来描述任务间交叉依赖。这两个层次的依赖建立了一种信息管道使得GPRN神经网络中不同的神经元之间可以通信。本论文把这种对GPRN神经网络中神经元之间依赖关系进行显式建模的方法称为通道交叉卷积和耦合区域协同的高斯过程回归网络GCSM-CC。以上方法兼顾了单任务和多任务高斯过程的不同特点,具有很好的兼容性、可解释性、可表达性、普适性和自适应模式学习能力。在合成数据集和物联网数据集上的大量实验表明,本论文提出的方法可以有效地实现单任务和多任务的未来趋势外推预测,相比于现有最新的方法,均表现出了更优的预测性能。