基于生成对抗网络的缺失数据填补技术研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:wei71
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺失数据填补是数据预处理中的重要内容,缺失数据的填补对数据挖掘、人工智能等以数据为基础的技术有着重要意义。随着5G通信技术和物联网技术的发展,各行业中采集、存储的数据总量高速增长,所带来的数据质量问题越来越突出,其中缺失数据作为影响数据完整性的主要问题受到越来越多的关注。在缺失数据填补的研究中传统的统计学方法已经难以适应数据表现出的高维度、大规模等新特点,基于机器学习方法的研究成为热点。为了更好的完成缺失数据的填补,提高缺失数据填补的准确性,本文在现有机器学习缺失填补模型的基础上进行了分析和优化,提出三种缺失数据填补模型。本文的主要工作如下:1、针对变分编码器在缺失填补中生成的缺失估计值准确性不高、生成式对抗网络生成样本的过程不易控制的问题,提出基于变分自编码器生成对抗网络的缺失填补模型。通过对抗训练的方式训练变分自编码器以提高生成的缺失估计值的准确性,改进了生成对抗网络中判别器功能,实现对生成样本的元素级判断,以适应缺失数据填补任务。实验结果表明,基于变分自编码器生成对抗网络的缺失数据填补模型在高维度、大规模数据的填补上更具有优势,能够节省缺失填补时间和计算成本,并且能够提高缺失填补的准确性。2、为了充分利用数据样本之间的相似性进一步提高缺失填补的准确性,提出基于条件变分自编码器生成对抗网络的缺失填补模型。在变分自编码器生成对抗网络的基础上利用条件变量对缺失估计样本的生成加以控制,把相似性小的样本隔离到不同分布空间,减小填补误差。同时,提出在该模型上的缺失数据多重填补方法,在有完整条件数据和缺乏完整条件数据作为输入数据的情况下都能完成缺失数据填补。实验结果表明,增加条件变量的改进方案,能够进一步提高缺失填补的准确性。3、为了充分利用属性之间的相关性进一步提高缺失填补的准确性,提出了基于属性互信息的分组变分自编码器生成对抗网络的缺失填补模型。通过对数据集中属性间相关性的分析,在变分自编码器生成对抗网络的缺失填补模型的基础上,按照属性之间的相关性强弱,对属性进行分组。采用分组隔离的思想,删除了模型中部分神经网络连接,简化了网络结构,提高强相关性属性之间的联系。实验结果表明,基于属性互信息的分组优化方式可以减小无关属性间的干扰,降低缺失数据填补的误差。
其他文献
经过40年高速的发展的星巴克,从密集开店取得巨额营业额到品牌的全球性扩张,在股市上的表现也一路狂飙,经历了种种市场上的困难和挑战,至今已成为全球咖啡巨头。总结星巴克的发展特点:明确定位,塑造品牌,专注品牌。星巴克的成功案例,有许多值得茶饮行业借鉴的经验,本文将深入分析星巴克的品牌定位,以4P角度分析星巴克的竞争力,以及对星巴克未来的发展进行预测和提出相关建议。
学位
学位
学位
学位
学位
学位
学位
在分组密码分析中,yoyo攻击是一类既可以用于密码结构分析,又可以用于密钥恢复的攻击方法,该方法最为突出的特点是具有低数据和计算复杂度,因此近年来吸引了大量学者研究兴趣。至今,yoyo攻击已成为评估密码算法安全性的重要工具之一。本文对yoyo攻击方法展开研究,将该方法用于密码结构分析及具体算法密钥恢复,取得下列研究成果:给出适用于第二类广义Feistel结构(Type-II结构)的yoyo攻击:本
大数据时代,各种信息采集工具将每个人都数据化,在浩瀚的信息网络中,人的一些行为和特征可以用数据表示。以数据为基础产生的各种应用在给人们带来更好服务体验的同时,也存在严重的隐私泄露隐患。层出不穷的隐私泄露案例不断刺激着人们的神经,事实上隐私安全问题已成为社会发展的隐患。因此在进行数据挖掘时,应该不断加强对个人隐私的保护,只有这样才能促进大数据应用健康发展。隐私保护计算能够实现隐私与效益之间的平衡,化