基于缺失值变量的不完整数据填补与分类研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:konglgu0404
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的爆炸式增长为人类社会带来巨大的机遇与挑战,如何有效挖掘数据的潜在价值已成为一项重要的研究课题。分类作为一种常见的数据分析方式,能够实现对数据内在规律的细致洞察与归纳。但是,真实数据集往往面临不同程度的缺失数据,进而增加数据挖掘的难度,降低分析结果的可靠性。在此背景下,本文论述包括缺失值填补和不完整数据分类在内的两阶段递进式工作,具体为以下内容:(1)针对缺失值填补问题,本文在自编码器的基础上,以动态方式重新设计隐藏层节点的输入结构,进而提出去跟踪自编码器。针对数据的不完整性,设计将缺失值视为变量并允许其参与训练的方案,填补在训练结束时刻伴随式完成。所提方法能够充分利用不完整数据集中的现有数据,并且采用去跟踪自编码器挖掘属性关联实现了复杂缺失模式下的高效率填补,实验验证了所提方法具备理想的填补性能。(2)针对不完整数据分类问题,本文首先构建基于去跟踪自编码器的回归模型以挖掘数据属性关联,随后重新组织输出层节点并建立填补与分类并行的多任务学习模型。在模型训练和预测期间,考虑到模型输入的不完整性,缺失值被视为未知变量并协同模型参数渐进更新。缺失值的动态优化促使模型逐渐匹配于不完整数据内的回归和分类结构,基于UCI数据集的实验验证了所提方法的有效性。本文从上述两方面对不完整数据进行深入探讨,并提出有效的解决方法。在数据质量难以保障的大数据时代,本文涉及的研究具有重要的现实意义。
其他文献
设备直连(Device-to-Device,D2D)通信是5G通信的关键技术之一,其在提高频谱利用率和系统容量等方面有重要作用,但D2D通信面临着同频干扰过大和终端设备耗能过高等问题。因此,
随着信息技术的飞速发展,软件的规模与复杂程度不断增加,这使得各类软件的正确性与安全性越来越难以保证。对于软件系统的安全,一个主要的威胁就是软件漏洞,一旦攻击者尝试恶
移动通信现今发展迅速且应用广泛,用户数量也急剧增长。正交频分复用(OFDM)技术是移动通信系统的核心技术。OFDM技术具有良好的抗干扰能力,能够获得较高的频谱利用率,提供质量
随着近年来科学技术的发展,航空航天、现代医学、光学工程、超精密加工等领域对运动定位精度的要求越来越高,伺服电机驱动、液压驱动、气压驱动等传统驱动装置通常只能达到数
活塞形位尺寸超差及表面缺陷等问题会导致发动机非正常运行,这不仅会造成汽车质量下降,还会威胁人身安全。质量检测作为活塞生产的关键步骤,其检测精度的高低决定着活塞质量
发动机目前正在向着节能、低污染和轻量化的趋势发展。随着发动机强化水平提高,发动机内部重要零部件将会承受更加严重的机械、热负荷,这对零件材料提出了更高的要求,镍基合金具有优异的高温强度、耐腐蚀性等性能而得到广泛应用。纳米孪晶具有优秀的机械、物理等性能,有研究表明在材料内部引入纳米孪晶结构可以提高材料力学性能。本文采用分子动力学研究方法,模拟含有纳米孪晶的镍基合金纳米划擦过程,研究纳米孪晶结构在纳米划
随着互联网技术的普及和众包思想的发展,越来越多以网络为载体的众包应用已经进入了大众的视野。在众包平台中,平台及时地发布任务,而注册的用户积极地接收任务并根据要求反
本文主要是对可特勒高勒地区成矿地质背景、多金属矿床主要类型、时空分布及成矿作用和室内岩矿测试分析进行综合研究,结合掌握的各种物化探异常特征,综合异常地球化学特征,初步查明中元古代狼牙山组、奥陶—志留纪滩间山群、晚石炭世缔敖苏组为研究区热液、矽卡岩型铁、多金属矿产的主要含矿层位,印支期是最重要的成矿时期在此大量事实基础上,确立找矿标志,为进一步开展异常验证及评价工作提供找矿依据和找矿靶区,分析推断最
无线信息与能量协同传输技术(Simultaneous Wireless Information and Power Transfer,SWIPT),利用射频信号既能传输信息又能携带能量的特性,可以实现信息与能量的同时传输,
开关磁阻电机(Switched Reluctance Motor,SRM)是最新一代无极调速系统的电机。SRM优异的容错运行能力拓宽了其应用领域,使得其在诸多领域具有良好的应用前景。功率变换器是