数据集缺失数据恢复算法研究

被引量 : 0次 | 上传用户:peterkong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的高速发展,传感器技术,多媒体技术等已广泛应用到生活的各个方面,产生了大量的数据。这些数据具有规模庞大,维度高,结构复杂的特点,在采集、传输、存储过程中极有可能发生数据的丢失或损坏,如何从具有部分数据丢失的数据集中恢复出原始数据,已成为数据挖掘、机器学习、模式识别以及计算机视觉领域的热点和难点问题。在大量阅读相关文献的基础上,本文对缺失数据处理的发展现状进行了综述。传统的缺失数据处理方法大部分是针对数据规模比较小或者是数据维度比较低的情况,而在大数据时代,需要考虑更加复杂的数据结构。因此本文针对数据规模比较大的矩阵缺失数据恢复问题,以及数据维度比较高的张量缺失数据恢复问题分别提出了恢复算法。本文主要有以下几个方面内容:第一,传统的低秩矩阵缺失数据恢复算法大多需要奇异值分解(SVD)的步骤,如APG算法,FPCA算法,如果矩阵规模比较大,其计算复杂度很高。为了避免每次迭代中大规模矩阵的奇异值分解,本文提出了基于矩阵分解的L2范数最小化框架的超松弛迭代算法(SOR)。通过大量仿真实验,SOR算法不仅保证了算法精度与GS算法一致,同时算法的运算速度有很大的提高,尤其是对大规模矩阵效果更加明显。第二,张量作为数据由向量(一阶)、矩阵(二阶)表示向高阶(大于等于三阶)推广的形式,能够更好的表达复杂数据的本质结构。然而,当前存在的大部分基于张量的缺失数据恢复算法仅仅是简单的将低秩矩阵缺失数据恢复问题的的秩最小化框架扩展应用到张量的缺失数据恢复问题中,将张量分解为独立求解的矩阵核范数问题,这在一定程度上破坏了张量结构特性。本文提出了一种基于张量PARAFAC分解的梯度优化算法(PARAFAC-Grad算法)。仿真实验表明,该算法数据恢复的精度比其它两种算法(Tucker-als和PARAFAC-als)有一定的优势。
其他文献
介绍了口腔黏膜炎评估量表的种类及其国内外应用情况,指出了目前口腔黏膜炎评估方面存在的问题,并提出了完善口腔评估的对策。
放疗是鼻咽癌的主要治疗手段,综述了近年来鼻咽癌放疗后并发症的预防与护理对策方面的新进展。
[目的]了解老年高血压病人的健康行为自我效能及其影响因素。[方法]采用一般资料调查表、健康概念量表、健康行为自我效能量表,对在我院就诊的206例老年高血压病人进行调查。
高压电击伤对局部组织的损伤除全层皮肤外,尚有深层组织的严重损伤。同时对各脏器也会造成不同程度的损害。为此,对重度电击伤病人从现场抢救,入院后心、肺、脑、肾以及伤口
商业银行(Commercial Bank)是由辖内农民、农村工商户、企业法人和其他经济组织共同入股组成的股份制的地方性金融机构。通过建立银行信用评级系统用于发现贷款的风险是商业
<正>工作倦怠是指个体长期处于工作压力状态下所出现的一种负性的、个体化的认知与情感反应,包括情感耗竭、非人性化和工作无成就感[1]。工作倦怠不仅损害了护理人员的身心健
法律是统治阶级意志的体现,法律由国家制定,并且由国家强制力保障执行。一般情况下,法律被认为是某种社会规范的综合。法律的目的被认为是“定纷止争”。因此,一般认为法律语
<正>近年来,经桡动脉穿刺途径行冠状动脉介入治疗已广泛应用于临床。其具有穿刺损伤小、血管并发症少、术后早期可下床活动、缩短住院日等优势[1]。尤其是目前应用了弹力带压
班级作为学校的基本单位,是学生学习成长和社会化的场所。班级管理就是为了更好地发挥班级的这些作用而进行的活动。班级管理过程中衍生班级文化,同时班级管理也是一种班级文