基于Spark的数据质量监管系统设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bbbeatrice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在一个数字化变革的时代,随着信息化技术的飞速发展,数据信息的爆炸式增长推动了大数据信息时代的到来。大数据带动了数字化产业,目前企事业单位都纷纷建立起自己的数据中心,基于数据仓库做数据挖掘和分析。但随之也伴随着一系列的数据质量问题。大数据体量大而多样,同时存在的脏数据也增大且多样,如果未经处理就直接进行数据挖掘分析或应用使用,将不可避免造成重大损失。近年来,企业开始逐渐注重数据质量问题,质量监管及清洗技术也得到了深入研究。然而,针对目前多源异构数据源存储日益复杂、数据流转时数据多变、数据类型丰富多样等情景,基于人工数据库方式或简单应用模式监管数据质量已难以满足大数据背景下高数据质量的需求。针对这些问题和需求,本文基于Spark计算框架设计并实现了灵活易用、具有多种监控分析规则、支持可视化操作、支持多种数据清洗算法的大数据质量监管系统。从功能上来看,本文具体实现的主要内容如下:(1)系统针对数据质量信息问题,设计并实现数据质量监控,通过数据探查实现对数据信息从整体概况到细节监测。整体上进行波动分析,周期监控数据波动情形。细节上进行质量监测,多维度细节分析,基于Apache Meta Model提供的可查询模式实现对数据源操作,利用Apache Math提供的统计方法实现多维度细节统计分析规则。最后全面诊断数据异常值,基于ISolation Forest算法并行化异常值探测,智能检测异常值。(2)系统为了改进提升数据质量,设计并实现了通用清洗组件,清洗组件包括数据去重、空值填充、数据脱敏、标准化清洗。系统数据清洗采用Data Cleaner组件化开发方式,一种清洗算法集成为一种组件,一种组件包含一至多种清洗转换规则,用户可按需求扩展清洗方法。(3)系统针对系统信息管理问题,设计并实现了系统管理、作业管理、质量运维管理及数据源管理。作业管理提供了对作业增删改运行及告警设置、调度设置等操作。系统通过使用Quartz调度框架定时调度作业。执行作业时提交到Spark上,解析作业的监控分析规则或清洗转换规则并执行。质量运维则主要提供了实例规则结果可视化及告警提示。数据源管理主要提供数据源信息维护管理。系统管理主要提供用户信息管理及权限设置。基于Spark的数据质量监管平台集质量分析、质量监控及改进数据质量为核心功能的应用系统。系统提供了一种简易的方法设计监控和清洗作业,支持对作业定时、周期调度,用户可以借助系统定位分析数据质量问题、监控数据质量状况,针对数据质量问题通过数据清洗改进提升数据质量。数据流转中还可以对数据质量进行探测、分析、改进、监控一系列循环监管,这对数据质量管理有着很大的意义。
其他文献
雷达辐射源个体识别是为了适应雷达新技术以及日益复杂的电磁环境而发展起来的,是电子对抗领域的重点发展方向,因此,对于雷达个体的识别有着重要意义。目前针对雷达个体识别的方法较为复杂,且低信噪比及小样本情况下识别率较低,所以研究在低信噪比下可以有效识别辐射源的算法具有重大的实际价值。本文对五部信号源、两种调制方式信号(LFM,BPSK)进行研究,通过以信号源为研究对象,研究信号发生装置的“指纹”信息,作
中国页岩气源岩分布广泛,类型多样,形成环境复杂。按沉积环境可以分为海相页岩,海陆过渡相页岩和陆相页岩。不同类型富有机质页岩地质特征存在明显差异,直接影响页岩气藏的成藏条件和开发前景。海相泥页岩以南方上扬子地区下寒武统牛蹄塘组页岩和下志留统龙马溪组页岩为例进行研究。海相泥页岩主要形成于浅水陆棚-深水陆棚的沉积环境,具有丰富的有机质来源,泥页岩层段总体上呈现有机碳含量、单层厚度和脆性矿物含量三高的特点
随着广播电视事业的发展和人们生活品质的提升,传统的连续片段式硬广告因为投放成本高、效果差、影响观众体验等缺点,已经逐渐被植入式广告所取代。植入广告隐蔽性强、投放灵活、能在潜移默化中影响受众,越来越受广告投放商的欢迎。然而,植入广告出现的时间、画面位置具有随机性,传统的使用人工选择语音或图像特征进行检测的方式无法实现视频中植入广告的精准识别。因此,本文将基于卷积神经网络的目标检测算法引入到植入广告的
随着电子科技的发展,半导体市场在不断扩大。但是提升芯片制造工艺技术和建造晶圆厂这两者所需的资金呈指数增长。IDM和foundry是半导体行业的两类制造商。IDM负责设计、生产、销售产品,但大部分IDM由于业务规模有限而不能通过直接投资生产线来获得收益。而foundry只负责生产产品,具有生产规模优势,能通过完成来自不同客户的同类产品的委外订单来实现收益。在此背景下,越来越多IDM开始采用fab-l
近年来,市场监管者和资本市场投资者密切关注着由股价暴跌带来的经济社会问题,同时许多专家学者也对股价崩盘的形成原因和影响因素进行了分析和讨论。随着供给侧改革的全面深化,产业优化整合升级是大势所趋,上市公司在资本市场进行并购重组的热情日益高涨,并购事件无论在数量上还是频次上都迅速增加,许多上市公司逐渐累积了大量的商誉资产,这些商誉资产所带来的潜在减值风险日益突出。当并购后并未完成业绩承诺或并购资产没有
随着我国城镇化发展速度的加快,城镇规模显著扩张,耕地、林地等类型的土地被人类开发活动大量占用,人地之间的矛盾越发突出。为了保护人类赖以生存的地球家园,实现城市的健康发展,我国越来越重视生态文明的建设工作,在城市规划,土地利用规划等相关规划制定过程中都非常重视协调城市与生态环境之间的关系,通过划定生态红线保护区、永久基本农田保护区等措施来限制城镇的扩张。这些措施对生态环境的保护和城市的健康发展起到了
示范社在农业现代化发展中起了关键的作用,其经营效率的高低对于自身发展和我国农业创新发展至关重要。对不同等级示范社的经营效率进行研究和评价,有利于使各个等级示范社发展均衡,找出不同等级示范社效率低下的不同原因,使资源配置尽可能达到最优状态,有针对性地提高经营效率水平和进行自身整改,从而使示范社在农民专业合作社或者其它农业企业中有更高的竞争力。本文在参考了大量国内外文献后,以117家示范社为研究对象,
近年来复合加工技术及复合功能机床迅速发展,各种车铣复合加工中心、车磨复合加工中心、车铣磨复合加工中心层出不穷,功能越来越强大,配置也越来越高端,加工精度、加工效率也越来越高,极大的满足了高端市场的加工需求。但面临一个很现实的问题,即售价高昂,大量有需求的中小客户可望而不可及。因此,催生了经济型简易复合机床的发展,即以通用机床为主体,通过基本的功能扩展,来满足其加工要求。因此,又对此类具备功能扩展的
随着高光谱遥感处理技术的深入发展,高光谱图像分类在近年来已经越来越成为一个研究热点。高光谱图像分类技术面临着如超高的光谱分辨率、有限的训练样本及图像噪声等诸多挑战,本文基于现有的空间光谱核分类方法,充分利用高光谱图像中地物分布的特点及高光谱数据特征间的相关性,在小样本条件下,进一步提高了高光谱图像分类准确率及分类效率。本文主要研究内容有以下几个方面:(1)提出两种基于自适应邻域的空谱核高光谱图像分
本文研究了以活性炭粉(PAC)为载体,利用浸渍焙烧法制备了负载不同催化元素的催化粒子电极,通过对腐殖酸(HA)的降解效果评价了催化粒子电极的催化性能,利用扫描电镜(SEM)、吸