论文部分内容阅读
“数据的缺失问题”是科学实验和调查研究中普遍存在的问题。数据的缺失会影响统计数据的质量,增加数据分析过程的复杂性,因此,对缺失值进行填补具有重要的理论价值和现实意义。成分数据是一类满足特殊性质的复杂多维数据,广泛存在于社会、经济、技术等诸多领域,用来反映例如产业结构、居民消费结构、岩石矿物组成等。由于成分数据受到“非负性”和“定和性”条件的约束,所张成的空间是单形空间,从而针对欧氏空间普通数据的传统统计分析方法不能直接应用于成分数据。双聚类算法实现在行和列两个维度上对数据矩阵中的对象和属性进行同时聚类,通过利用对象和属性来提取其联合信息,有效地挖掘出数据矩阵中隐藏的局部特征信息。本文基于双聚类算法,利用使得双聚类簇内均方残差越低的成分数据在簇内属性上具有较高的一致性特点来填补成分数据的缺失值,根据等距对数比变换的度量不变性特点,提出经过等距对数比变换后基于双聚类算法的成分数据缺失值填补法(ICDBIA)。通过模拟和实例分析,并与Hron等(2010)提出基于Aitchison距离的k-近邻填补法(KNN)和迭代回归填补法(LISR)进行比较,得出ICDBIA填补法在成分数据缺失值填补的有效性,为成分数据缺失值的填补提供新的思路。考虑到实际中往往忽视成分数据的数据特性,视成分数据为欧氏空间的普通数据的情况,因而本文也相应提出原始的不加变换的CDBIA填补法作为比较方法,研究得到ICDBIA填补法一致优于CDBIA填补法的填补效果。因而在成分数据的分析中应注意成分数据的数据特性。本文主要内容包括五章:第一章:绪论。对成分数据的研究背景、意义及国内外研究现状进行概述,同时对本论文的主要内容及创新点进行阐述。第二章:理论基础。对成分数据统计理论、双聚类算法的一些理论知识进行一定的阐述,主要介绍成分数据的基础包括成分数据的相关定义、Aitchison几何和成分数据的对数比变换、KNN填补法和LISR填补法简介以及双聚类算法相关定义、双聚类算法的基本类型。第三章:成分数据缺失值填补方法。提出本文的等距对数比变换,给出基于双聚类算法的缺失值填补定理,结合该定理提出CDBIA方法和ICDBIA方法,并结合实例来进行实现。第四章:模拟与实证分析。通过模拟和实证分析,将本文提出的ICDBIA算法分别和KNN、LISR以及CDBIA进行比较缺失值的填补效果。第五章:总结与展望。总结本文的研究,并对后续研究进行展望。