论文部分内容阅读
数据特征学习是一种有效地挖掘数据中事物发展固有规律的方法,可以支持商业决策、科学研究,已经成为当前大数据分析的热点。然而,在大数据挖掘处理中,数据模态的异构性、存储的海量性、分析的实时性以及固有的低质性为大数据的深度特征分析提出了巨大的挑战。本文针对大数据的异构性、海量性、实时性、低质性等特性以及当前深度特征学习方法的不足,展开面向异构数据、海量数据、实时数据以及低质数据特征学习的深度卷积计算模型研究。具体研究包含以下几个方面:(1)针对现有深度学习模型难以揭示大数据模态内私有特征与模态间复杂融合关系这一问题,本文设计一种基于张量数据表示的深度卷积计算模型。具体地,基于张量多点乘积设计张量卷积操作,提出张量卷积层,在高阶空间中感知大数据的局部特征。利用张量多点乘积操作,定义张量全连接层,组合数据的局部特征,构建大数据的深度全局融合表示。设计误差在张量卷积层、张量抽样层和张量全连接层的反向传播规则,将反向传播算法从向量空间扩展到张量空间,训练模型收敛于数据固有分布。实验验证基于张量的深度卷积计算模型能够较好地拟合异构数据的深度分层特征,分类正确率提升2%-4%。(2)针对当前基于高性能计算架构的深度学习方法忽视模型本身的冗余性这一问题,本文提出一种基于CP(Canonical Polyadic)分解的深度卷积计算模型。具体地,利用深度卷积计算模型中张量卷积核的冗余性,设计CP分解张量卷积核,提升数据的空间拓扑特征的学习效率。利用张量全连接层的特征相关性,提出CP张量权重,快速挖掘数据的深度特征。然后,在张量空间中,设计基于CP分解的反向传播规则,训练CP分解深度卷积计算模型,拟合数据的深度融合特征。实验验证CP分解深度卷积计算模型减少模型的训练参数,压缩模型的冗余性,在保证准确率的情况下提高特征学习效率。(3)针对现有的静态深度学习方法不能较快地构建新增数据与历史数据的整体分布这一问题,本文提出一种基于在线学习的增量深度卷积计算模型。针对相似增量数据,设计一种基于增强dropout方法的参数增量学习算法,强化训练全连接层节点,确保全连接节点保持历史知识与学习新增知识。此外,设计增量代价函数,提高参数增量学习算法的效率。针对分布变化较大的动态数据,设计深度卷积计算模型限制层和全连接层的拓扑结构更新规则,融合历史知识与新增知识。同时,将dropout方法扩展到张量空间,进一步提高模型的鲁棒性。实验表明增量深度卷积计算模型较短的时间内对历史数据与新增数据的分类正确率均达到再训练模型近似结果。(4)针对当前聚类算法忽视低质数据的深度融合模式这一问题,本文设计一种基于深度卷积计算的高阶模糊聚类算法。利用数据私有模态间的独立性,设计降噪自动编码机,抽取私有模态的鲁棒语义特征。利用数据模态间的互补性,采用张量外积融合私有模态特征,设计高阶卷积自动编码机,提取融合表示的深层特征。利用张量距离,在融合特征上扩展聚类隶属度和中心更新公式,设计高阶模糊聚类算法,挖掘低质数据的鲁棒固有特征。实验验证基于深度卷积计算的高阶聚类算法能够较好地学习低质数据的模式,聚类准确率提高2%-5%。