论文部分内容阅读
统一表示与降维方法研究是大数据领域的两个重要课题。然而,目前尚缺乏简洁有效的模型实现非结构化、半结构化、结构化数据的统一表示。另外,在大数据计算过程中,大量不一致、重复冗余、噪音数据的存在,严重影响了大数据处理算法的效率和计算结果的准确性。构建简洁的数学模型对结构复杂的大数据进行统一表示,设计高效安全的降维算法从低质量原始大数据中提取出高质量核心数据集,对于大数据研究有着巨大的理论和实践意义。从大数据四大特征(规模大、类型多样、速度快、价值密度不均)出发,研究基于张量的大数据统一表示模型,提出增量式、分布式、安全的大数据降维方法。论文主要研究内容和创新成果如下:首先,提出大数据统一表示模型。传统的数据处理技术无法对复杂结构类型的数据进行统一表示。针对不同结构类型数据的特点,提出高阶张量空间统一表示模型,实现对非结构化数据、半结构化数据、结构化数据的统一表示。针对异构数据特征冲突问题,提出张量空间动态融合机制,在保持原始数据特征完备性的基础上,实现异构数据在高阶张量空间中的高效表示。另外,面向大数据应用系统的不同需求,提出大数据整合方法,实现异构数据的灵活组织和统一整合。其次,提出大数据增量式降维方法。数据在分析和处理过程中呈现出计算规模巨大和中间计算结果爆炸性增长两大特点,从而导致重复计算和效率低下等问题。提出基于张量的大数据增量式降维方法,将新增数据投影到张量模展开矩阵的左奇异向量基空间,并利用投影结果动态更新正交基向量空间和核心张量。提出并证明核心张量等价定理,解决核心张量沿时间阶的增量式更新问题。提出张量递归增量式分解算法。实验结果表明,该算法能够保证计算准确度、减少中间计算结果、消除重复计算过程、降低计算复杂度,极大提高了大数据降维方法的效率。再次,提出大数据分布式降维方法,实现优质核心数据在分布式计算环境下的高效提取。分布式降维方法包括分布式算法、分布式环境搭建、张量分块策略三部分。提出张量分块模型,基于Lanczos迭代过程,提出分布式张量分解算法,基于异构计算设备构建分布式计算环境执行降维任务,提取高质量核心数据。基于行压缩模式存储张量分块以减少计算过程中的数据存储量。为了更合理地将张量块分配到计算设备上,提出四目标优化方法,对分解过程中的能耗、计算时间、通信量、数据安全级别建模,实现降维过程中张量块近似最优分配。最后,提出大数据安全降维方法。基于半同态加密机制Paillier和全同态加密机制BGV提出两种大数据安全降维方法。基于半同态加密机制的安全降维方法由安全双对角化算法、安全奇异值分解算法、安全模乘算法构成,在客户端构建密文子张量,在服务器端求得核心张量与截断正交基。在基于全同态加密机制的安全降维方法中,首先对张量模展矩阵进行三对角化,在云端实现密文上的加法、减法以及乘法运算,在客户端明文上实现除法运算。分析了两种安全降维方法在计算效率和安全级别上的异同,并通过实验对两种方法进行比较。