基于时空相关性的感知数据清洗研究

来源 :北京建筑大学 | 被引量 : 4次 | 上传用户:mayf014
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据作为文明发展的载体之一,有着至关重要的地位。纵观文明的发展史可以发现,准确的信息和数据甚至能决定国家的兴盛与衰败。随着5G通信落地、IPv6协议推广和区块链技术发展,如今,我们正处于新一轮的科技信息技术革命中。在物联网中,每天数以亿计传感器设备都会采集到海量的数据,不仅如此,这些数据量还在以指数形式增长。在海量的传感器采集的原始数据中,存在一部分冗余、冲突、异常或缺失的数据,这些数据为脏数据。脏数据只有经过合理的清洗后,才能完整准确的表达原始数据,更好的服务于数据管理者,支撑其决策与分析,发挥数据真正的价值。本文通过建立数据清洗框架,设计数据清洗方法清洗了感知数据中的四类脏数据。通过不同清洗模型精度的对比,得到在温度、湿度、二氧化碳和光强数据集中,数据经过本文设计的框架清洗,应用时空相关性模型填补后精度最优。在研究过程中,本文主要设计了以下五个方面的内容。第一,数据清洗框架的设计。根据数据分析的需求和数据应用场景,设计了适用于感知数据的数据清洗框架,包括清洗需求、采集数据、清洗数据和精度评价。第二,数据清洗方法和具体流程设计。根据感知数据特点,设计了针对四类脏数据的清洗方法,并由清洗后的结果设计了依次是冗余清洗、冲突清洗、异常清洗和缺失清洗的数据清洗流程。第三,异常清洗方法设计。根据概率论中正态分布的特点,判断每一组感知数据集中的偏差大于两倍σ的小概率数据,对其进行删除的方式清洗。第四,数据时空相关性设计。根据感知数据的时序特征,建立了滑动时间模型;根据感知数据的两种空间特征,建立了多站点和相邻节点的空间模型。综合时间与空间模型设计了ST-SDC算法,加权平均方法建立了时空相关性模型。第五,清洗评价方法设计。根据本文建立的时空相关性模型,对清洗流程中最后的缺失数据进行填补。对比计算了常用的时间ARMA模型、空间VAR模型和单独的时间或空间模型等填补数据集的RMSE精度值。为了完成基于时空相关性的感知数据清洗研究,本文首先描述了物联网时空相关性数据清洗的研究背景和现状,其次对数据采集、时空相关性和数据清洗的理论进行介绍,随后设计上述五个方面的核心内容,最后根据实验结果分析和研究过程中的感悟,归纳总结了研究成果的核心内容和创新,并总结了研究中的不足和缺陷,根据不足对未来的研究提出了展望。
其他文献
《化工设备基础》是化工类专业的专业基础课。结合江阴职业技术学院精细化学品生产技术专业的办学特色和教学实践,基于项目化教学思路,从课程教学目标设定、课程的项目化设计
文章对我国农产品供应链管理的现状、问题进行了深度分析,并提出了针对其现状、问题的对策,为我国农产品供应链的管理提供一定的参考意义。
大学生创新训练中心是国家"十二五"实施的一项重要质量工程,其目的是要搭建自主学习、自由探索的实践平台,促进大学生创新精神与实践能力的系统培养与训练,努力提高人才培养质
起源于寺院世俗教育的寺子屋是以普通民众为主体的教育机构,开创了日本普通民众教育的先河,它在江户时代特别是末期取得了飞速发展,对民众教育水平的提高起了重要作用。关于
动物体内的许多激素和因子通过内分泌活动把能量摄入和繁殖系统联系起来.卵巢上卵泡的发育是雌性动物繁殖系统中的重要因素,是繁殖性能的基础.猪的生产是人们生活中主要的肉
采用火焰光度法对青海省8个品种绵羊的红细胞钾型多态性特征进行了调查研究.结果发现,被检的8个品种绵羊均有高钾(HK)和低钾(LK)两种表型而呈现多态性,其中欧拉羊、藏羊、小
随着医疗制度的不断改革,医院开始逐步趋向市场化,而且竞争越来越激烈,财务的管理成为了医院管理重要的一部分,而且其发挥的作用也越来越大,尽管施行的新制度对医院的财务上
穴位主治与神经节段相关性的分析廖年生朱兆洪*吴锐**孟华李卫红秦玫(东风汽车公司康复中心湖北十堰442004)图书分类号R224关键词针刺穴位脊神经*江西中医学院**江西医学院第一附属医院针灸疗法
当前,越来越多的国家认识到科学技术的重要性,把科技创新当成了国家综合实力中的核心竞争力来对待。发达国家和主流发展中国家竞相出台科技创新政策,不断增强国家科技创新方