基于一种双聚类算法的成分数据缺失值填补

来源 :浙江财经大学 | 被引量 : 1次 | 上传用户:nannalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“数据的缺失问题”是科学实验和调查研究中普遍存在的问题。数据的缺失会影响统计数据的质量,增加数据分析过程的复杂性,因此,对缺失值进行填补具有重要的理论价值和现实意义。成分数据是一类满足特殊性质的复杂多维数据,广泛存在于社会、经济、技术等诸多领域,用来反映例如产业结构、居民消费结构、岩石矿物组成等。由于成分数据受到“非负性”和“定和性”条件的约束,所张成的空间是单形空间,从而针对欧氏空间普通数据的传统统计分析方法不能直接应用于成分数据。双聚类算法实现在行和列两个维度上对数据矩阵中的对象和属性进行同时聚类,通过利用对象和属性来提取其联合信息,有效地挖掘出数据矩阵中隐藏的局部特征信息。本文基于双聚类算法,利用使得双聚类簇内均方残差越低的成分数据在簇内属性上具有较高的一致性特点来填补成分数据的缺失值,根据等距对数比变换的度量不变性特点,提出经过等距对数比变换后基于双聚类算法的成分数据缺失值填补法(ICDBIA)。通过模拟和实例分析,并与Hron等(2010)提出基于Aitchison距离的k-近邻填补法(KNN)和迭代回归填补法(LISR)进行比较,得出ICDBIA填补法在成分数据缺失值填补的有效性,为成分数据缺失值的填补提供新的思路。考虑到实际中往往忽视成分数据的数据特性,视成分数据为欧氏空间的普通数据的情况,因而本文也相应提出原始的不加变换的CDBIA填补法作为比较方法,研究得到ICDBIA填补法一致优于CDBIA填补法的填补效果。因而在成分数据的分析中应注意成分数据的数据特性。本文主要内容包括五章:第一章:绪论。对成分数据的研究背景、意义及国内外研究现状进行概述,同时对本论文的主要内容及创新点进行阐述。第二章:理论基础。对成分数据统计理论、双聚类算法的一些理论知识进行一定的阐述,主要介绍成分数据的基础包括成分数据的相关定义、Aitchison几何和成分数据的对数比变换、KNN填补法和LISR填补法简介以及双聚类算法相关定义、双聚类算法的基本类型。第三章:成分数据缺失值填补方法。提出本文的等距对数比变换,给出基于双聚类算法的缺失值填补定理,结合该定理提出CDBIA方法和ICDBIA方法,并结合实例来进行实现。第四章:模拟与实证分析。通过模拟和实证分析,将本文提出的ICDBIA算法分别和KNN、LISR以及CDBIA进行比较缺失值的填补效果。第五章:总结与展望。总结本文的研究,并对后续研究进行展望。
其他文献
项目施工安全管理是EPC项目管理的重要组成部分。"危险源预警机制"作为项目施工安全管理的一个方式,可以增强项目施工安全管理的针对性,变"被动应付"为"主动防范"。笔者以自己的工
解放军报网络英文版自2003年3月5日开通,至今已有一年。因人力资源等条件限制,我们主要采取了与中国日报合作的方式来运转,即每天先将军报纸版发表的有新闻价值的稿件选出,交
当前随着中国消费者收入水平的提升,消费能力逐步提高,消费者的品牌意识越来越强,对于产品质量和品质的要求也在逐步提升。我们认为,未来家电产品结构将发生变化,高端产品的占比将
学位
根据国家统计局最近对部分城市的调查、全国收入阶层可划分如下: 贫困型家庭 年收入在5000元以下约占家庭总数3.8% 温饱型家庭 年收入在5000元至1万元之间约占家庭总数36% 小
本文比较分析了不同经济发展水平地区职业学校学生及家长的不同诉求,以期为全面系统地认识职业教育吸引力问题提供有益思考。 This paper analyzes the different demands o
MOOC作为一个新兴的O2O教育资源共享模式,在我国的各大高校正掀起一场改革狂潮。在一些学者看来,MOOC的到来会是中国教育向信息化迈进的一大步。多年以来国内外各高校就已经
目的:探究乳腺癌接受新辅助化疗前后的肿瘤组织中ER、PR、Her-2等的表达和临床意义。方法:针对150名乳腺癌患者在新辅助化疗前后的ER、PR和Her-2的表达情况采用免疫组织化学染
色彩将我们的生活和世界点缀的绚丽无比,在艺术设计中,色彩又是一门学科,尤其色彩在视觉传达设计中扮演着不可或缺的角色。在此背景下,本文首先介绍了视觉传达设计中色彩应用
虚拟暗室测试系统用于普通环境下的电磁干扰测量,它的基础是自适应噪声抵消。通过联合传统的分时测量方法和同步测量方法,设计了一种改进的虚拟暗室测试系统,进而解决在背景噪声
近年来,部分学者利用第一手资料,梳理20世纪50年代各行业学习苏联的情况,展现了人们对苏联经验的崇拜、追寻及反思,揭示了苏联经验对中国社会的重要影响。报纸、广播、通讯社