论文部分内容阅读
人类对于周围物理世界的感知和交互是多模态的,是基于视觉、听觉、触觉、嗅觉、味觉等多种模式进行体验的。因此,为了使人工智能更好地理解我们周围的世界,需要对多种模态的信号进行综合解释。如何借鉴人脑对于形式上异构、语义上关联的不同媒体数据进行处理的能力,是人工智能2.0时代面临的主要问题之一。本文主要研究多模态数据的深度网络融合问题,以及数据的跨模态表征问题。狭义的多模态是指人的不同感官,如视觉、听觉、嗅觉、触觉等,视觉所对应的图像或文字信息和听觉所对应的声音信息,就构成多模态数据;广义的模态数据是指对于一个事物,通过不同的方法收集到的数据。本文研究内容旨在通过对深度神经网络架构的设计,实现端到端多模态数据处理框架,针对网络的特点进行方案改进。此外,多模态数据集涉及视频和音频,属于时间序列数据,如何处理由于时间序列而引入的数据之间的时间相关性问题,也是本文讨论的内容之一。由多模态机器学习引领的跨媒体智能,面临两大主要问题:语义鸿沟和异构鸿沟。语义鸿沟问题主要产生于视频图像的计算机特征表示与人类理解的语义概念不一致,其关键在于如何综合利用多模态信息缩短语义鸿沟。而异构鸿沟问题旨在研究视频图像包含的视觉、语言等不同模态信息的特征表示不一致问题,以及如何实现多模态信息的统一表征和综合利用问题。本文的主要工作包括:(1)提出基于随机向量功能连接神经网络的深度典型相关分析算法R-DCCA,通过将原始数据映射到公共空间中的表征向量,解决了多模态深度学习的异构鸿沟问题,通过引入随机向量功能链接增强泛化性能,解决了过拟合问题。针对传统方案的特征提取严重依赖于先验背景知识这一缺陷,本文提出使用DCCA,充分利用神经网络的深度非线性映射,将多模态数据从样本空间映射到特征空间。针对深度神经网络方法易于过拟合的特性削弱了其表征能力这一问题,提出使用基于随机向量功能连接神经网络的深度典型关联分析算法R-DCCA,通过集成学习的思想提高网络泛化能力,以深度DCCA算法为基础,在输入层和输出层之间引入了增强节点(随机连接层),取得了比传统网络更好的泛化效果,解决了多模态数据的跨模态表征问题,以及使用多模态数据进行标签预测过程中的泛化性能不强的问题。(2)提出基于卡尔曼滤波器的时间序列分析算法GBDT-KF,解决了时间序列分析问题中算法容易受到噪声影响的问题。本文以单一模态的时间序列数据预测问题为例展开讨论,为多模态时间序列的预测问题提供研究基础,以期解决多模态时间序列分析问题。通过改进的GBDT算法,构造了新的特征向量作为决策函数的输入特征,提高了算法的鲁棒性。针对时间序列,提出使用基于卡尔曼滤波的GBDT-KF算法,通过滤除时间序列中的噪声提高算法对时间序列的拟合能力。一般地,原始数据中通常夹杂着一定程度的噪声和扰动,当网络深度取值一定且在训练集上收敛时,极易发生过拟合现象,因此本文提出使用C-GBDT(Correlation GBDT)结合滑动窗口的方法代替常用的深度神经网络,以达到节约训练时长的目的。同时,使用卡尔曼滤波的方法对原始时间序列数据集进行平滑处理,以提高预测性能,避免过拟合。GBDT基于集成学习(Ensemble Learning)方法,可以用于决策级多模态特征融合,在实验中能够取得比深度神经网络更好的泛化性能和时间性能。(3)针对上述算法在多模态数据集上进行了仿真实验。使用多模态情感预测数据集MOSI以及时间序列数据——移动基站网络日志数据集测试了上述算法的性能。实验仿真结果表明,本文所提出的R-DCCA算法和GBDT-KF算法能够适应多模态机器学习数据量大的处理需求,在测试集上取得了较好的泛化性能,能够完成跨模态数据表征学习的任务。