论文部分内容阅读
随着科学技术的高速发展,传感器技术,多媒体技术等已广泛应用到生活的各个方面,产生了大量的数据。这些数据具有规模庞大,维度高,结构复杂的特点,在采集、传输、存储过程中极有可能发生数据的丢失或损坏,如何从具有部分数据丢失的数据集中恢复出原始数据,已成为数据挖掘、机器学习、模式识别以及计算机视觉领域的热点和难点问题。在大量阅读相关文献的基础上,本文对缺失数据处理的发展现状进行了综述。传统的缺失数据处理方法大部分是针对数据规模比较小或者是数据维度比较低的情况,而在大数据时代,需要考虑更加复杂的数据结构。因此本文针对数据规模比较大的矩阵缺失数据恢复问题,以及数据维度比较高的张量缺失数据恢复问题分别提出了恢复算法。本文主要有以下几个方面内容:第一,传统的低秩矩阵缺失数据恢复算法大多需要奇异值分解(SVD)的步骤,如APG算法,FPCA算法,如果矩阵规模比较大,其计算复杂度很高。为了避免每次迭代中大规模矩阵的奇异值分解,本文提出了基于矩阵分解的L2范数最小化框架的超松弛迭代算法(SOR)。通过大量仿真实验,SOR算法不仅保证了算法精度与GS算法一致,同时算法的运算速度有很大的提高,尤其是对大规模矩阵效果更加明显。第二,张量作为数据由向量(一阶)、矩阵(二阶)表示向高阶(大于等于三阶)推广的形式,能够更好的表达复杂数据的本质结构。然而,当前存在的大部分基于张量的缺失数据恢复算法仅仅是简单的将低秩矩阵缺失数据恢复问题的的秩最小化框架扩展应用到张量的缺失数据恢复问题中,将张量分解为独立求解的矩阵核范数问题,这在一定程度上破坏了张量结构特性。本文提出了一种基于张量PARAFAC分解的梯度优化算法(PARAFAC-Grad算法)。仿真实验表明,该算法数据恢复的精度比其它两种算法(Tucker-als和PARAFAC-als)有一定的优势。