【摘 要】
:
大数据时代的来临,让数据的重要性越升上了一个新高度,其巨大的价值和所提供的机会给众多方向均带来了变革性的发展。但是,数据在采集、传输、存储等各个流程都可能发生故障,导致数据存在缺失,数据集质量低下,直接影响对其分析挖掘的计算结果。对于数据缺失,传统方法大多采用数理统计方法,或者利用丰富的先验知识结合数据业务机理分析构造相对应的数学模型对缺失值进行预测或填充。然而,随着数据细分、爆发式增长的同时,数
论文部分内容阅读
大数据时代的来临,让数据的重要性越升上了一个新高度,其巨大的价值和所提供的机会给众多方向均带来了变革性的发展。但是,数据在采集、传输、存储等各个流程都可能发生故障,导致数据存在缺失,数据集质量低下,直接影响对其分析挖掘的计算结果。对于数据缺失,传统方法大多采用数理统计方法,或者利用丰富的先验知识结合数据业务机理分析构造相对应的数学模型对缺失值进行预测或填充。然而,随着数据细分、爆发式增长的同时,数据的复杂度也日渐增强,数据集所涵盖的信息也越来越多样化,单纯的数学建模或者是机器学习方式已经无法描述高维、特征复杂的数据,导致数据增强效果并不理想。针对上述问题,本文提出了一种基于生成对抗网络和双重语义感知的数据质量增强算法模型。以受多物理场耦合、特征复杂的配电系统采集的运行数据为算例,来验证模型对其数据缺失部分的重构效果。首先,利用生成对抗网络的无监督自主提取数据特征的特点来对配电运行数据进行隐性特征提取,并结合二维卷积神经网络来搭建生成器和判别器的内部结构,对数据进行二维灰度化处理,以增加模型鲁棒性、泛化能力。然后,针对数据增强过程中的对缺失值的重构训练,提出了一种双重语义感知算法来惩罚模型,生成更接近原数据分布空间的数据。该算法通过增强缺失部分在重构数据中的影响,扩大重构模型在增强训练过程中对重构得到数据结果的关注度,形成惩罚力更大、约束性更强的对抗损失优化目标,来寻找隐层空间中与残缺数据提供上下文最为相似且符合其数据原有特征的重构数据,以高精度的重构数据集中的缺失数据来有效提高数据集质量。该方法在面对更灵活、无明显规律特征数据时,可以通过模型的对抗训练无监督的学习其特征,不需要显式建模,仅依赖数据驱动来实现。文中通过对配电网的电压运行数据和功率运行数据分别实验,对模型在大规模随机缺失情况下进行验证,当数据缺失达到90%时,模型仍然可能对其缺失值零误差的重构,证明模型在面对随机大量缺失、特征复杂数据时有着良好的稳定性与修复能力,能极大增强数据集质量。
其他文献
在我国房地产领域由于整体管理质量的制度标准没有得到严格的执行,并且实施方案在现有阶段并没有进行有效地落实与贯彻,从而导致相关的房地产项目质量具有一定的隐形风险存在
背景:腹腔淋巴瘤(intro-abdominal lymphoma)在影像学检查中时有发现,但因所处位置特殊性,既往获得瘤细胞及病理组织的诊断方法有:CT/超声引导下穿刺、外科手术取材。前者技
近年来,社交网络(SocialNetwork Services,SNS)作为一种新颖的,实用的,便捷的交友模式,依赖其真实性,稳定性等特点越来越受到用户的青睐。随着社会的发展和科技的进步,大量标
知识经济时代对高等教育提出了更高要求,而高等教育的良好继续发展离不开正确思想和理念的引领,本篇英汉翻译实践报告选取Beyond Reason and Tolerance(《超越理性与包容》)
背景免疫性溶血病(immune hemolytic disease,IHD)是造血干细胞移植(Hematopoietic stem cell transplantation,HSCT)后严重的并发症。移植后免疫溶血性贫血(Post-HSCT IHD),
随着社会的发展与印刷技术的进步,教材的组成成分通常不仅只包含语言还有插图、字符、颜色、排版等其它符号。为了在义务教育阶段的教材中传递男女平等这一思想,教材的每一个组成部分包括语言、图片、字符等的编写都需更科学规范。而多模态话语分析为全面探究教材中的性别再现提供了新的方法。本研究依据Brugeilles(2009)对教材中语言方面的性别歧视的研究方法和Van Leeuwen(2008)分析人物在视觉
采用高强度钢板是实现汽车轻量化的主要手段之一,近些年来人们相继开发了一系列的先进高强度钢,其中TWIP/TRIP钢由于具有优异的加工硬化能力成为研究的热点。传统TWIP/TRIP钢使用状态为完全再结晶态,组织为奥氏体,屈服强度较低,限制了TWIP/TRIP钢的进一步应用。本文将TWIP钢和TRIP钢热轧成多层复合钢,利用弥散强化和预应变强化来提高多层复合钢屈服强度。具体研究内容及结论如下:(1)本
世界自然遗产地因在自然景观、地球科学、生物多样性等方面具有突出普遍价值而成为全世界关注的焦点,但近年来频繁发生的地质灾害破坏了遗产地生态系统的结构和功能完整性,严重威胁了世界自然遗产地的可持续发展。本文基于灾害地质学原理和灾害风险评估理论,以地质灾害为研究对象,以植被作为承灾体,运用GIS和RS等手段,通过分析地质灾害的分布发育特征和主要动力机制,从全球和典型案例地(“三江并流”)两个尺度,开展了
2017年7月,圣彼得堡国立儿童芭蕾舞团受邀来到中国,开始了为期37天的全国巡演,笔者负责陪同口译工作,全程陪同芭蕾舞团本次在中国的巡演,为芭蕾舞团的日常生活和演出工作提供
图像处理技术的不断发展给各行各业带来了革命性的转变,其中视频监控就是其重要应用场景之一。监控设备所需求的行人身份识别、行为分析、闯入报警等功能均依赖于行人检测与跟踪技术,这使得该技术得到了广泛的关注和迅猛的发展。本文在调研国内外相关工作的基础上,对现有的基于图像序列的行人检测和跟踪算法进行了研究与改进。本文的主要研究内容如下:1.针对传统机器学习领域中的C4行人检测算法仅包含轮廓特征,无法充分描述