论文部分内容阅读
缺失数据填补是数据预处理中的重要内容,缺失数据的填补对数据挖掘、人工智能等以数据为基础的技术有着重要意义。随着5G通信技术和物联网技术的发展,各行业中采集、存储的数据总量高速增长,所带来的数据质量问题越来越突出,其中缺失数据作为影响数据完整性的主要问题受到越来越多的关注。在缺失数据填补的研究中传统的统计学方法已经难以适应数据表现出的高维度、大规模等新特点,基于机器学习方法的研究成为热点。为了更好的完成缺失数据的填补,提高缺失数据填补的准确性,本文在现有机器学习缺失填补模型的基础上进行了分析和优化,提出三种缺失数据填补模型。本文的主要工作如下:1、针对变分编码器在缺失填补中生成的缺失估计值准确性不高、生成式对抗网络生成样本的过程不易控制的问题,提出基于变分自编码器生成对抗网络的缺失填补模型。通过对抗训练的方式训练变分自编码器以提高生成的缺失估计值的准确性,改进了生成对抗网络中判别器功能,实现对生成样本的元素级判断,以适应缺失数据填补任务。实验结果表明,基于变分自编码器生成对抗网络的缺失数据填补模型在高维度、大规模数据的填补上更具有优势,能够节省缺失填补时间和计算成本,并且能够提高缺失填补的准确性。2、为了充分利用数据样本之间的相似性进一步提高缺失填补的准确性,提出基于条件变分自编码器生成对抗网络的缺失填补模型。在变分自编码器生成对抗网络的基础上利用条件变量对缺失估计样本的生成加以控制,把相似性小的样本隔离到不同分布空间,减小填补误差。同时,提出在该模型上的缺失数据多重填补方法,在有完整条件数据和缺乏完整条件数据作为输入数据的情况下都能完成缺失数据填补。实验结果表明,增加条件变量的改进方案,能够进一步提高缺失填补的准确性。3、为了充分利用属性之间的相关性进一步提高缺失填补的准确性,提出了基于属性互信息的分组变分自编码器生成对抗网络的缺失填补模型。通过对数据集中属性间相关性的分析,在变分自编码器生成对抗网络的缺失填补模型的基础上,按照属性之间的相关性强弱,对属性进行分组。采用分组隔离的思想,删除了模型中部分神经网络连接,简化了网络结构,提高强相关性属性之间的联系。实验结果表明,基于属性互信息的分组优化方式可以减小无关属性间的干扰,降低缺失数据填补的误差。