面向半结构化数据的数据质量控制系统的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:johnnyxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息处理技术的不断发展,各行各业都已经建立起了很多的计算机信息系统,积累了大量的历史数据,这些历史数据非常重要的。为了使数据能够有效地支持企业的日常运作和决策,就需要这些数据可靠无误,能够准确地反映现实世界的状况。纠正数据错误是避免错误决策、降低决策风险的重要环节,所以数据质量控制对于数据管理来说是必不可少的。以往的数据质量控制方面的研究绝大多数都是关注在数据库中的这种结构化的数据,然而由于客观因素,半结构化的文本数据却是企业保存历史数据的重要格式。针对上面的问题,本文对半结构化数据的数据质量控制进行了深入研究,并且设计实现了面向半结构化数据的数据质量控制系统。首先,对现有的数据质量控制相关研究进行了详细的分析,然后分析描述了半结构化数据的特点,根据其特点建立了面向半结构化数据的数据质量控制模型。该模型实现了半结构化数据的质量检测、问题数据处理以及数据质量评估功能,提出了该模型对半结构化类型数据的抽象方法,很好的解决了半结构化数据的异构问题。然后,详细介绍了该模型对不完整数据、不一致数据和错误数据三种类型问题数据的处理方法。针对不完整数据问题,本文在传统的不完整数据检测算法的基础上,按照字段在记录中的重要性的不同,提出了决定性字段,并且按照字段的重要程度来对需要检测的字段进行排序,减少了不必要数据的检测次数,从而提高了算法的检测效率;对于数据字段的错误数据,本文采用了基于业务规则的检测方法,为了解决规则库以及算法库的规模大带来的检索效率的问题,提出了规则库两级的分区检索的策略;对于数据字段之间的不一致数据问题,本文采用了基于正则表达式的不一致数据的检测方法,很好的解决了不一致数据问题。本文最后,设计并且实现了面向半结构化数据的数据质量控制系统,并将其应用到了海洋数据环境中,通过应用验证了系统的可用性和有效性。
其他文献
随着网络流量不断增长,网络尤其是全流量被动测量必须面对海量数据。解决海量IP流数据TRACE的分析、管理的方便性和合理性,改善TRACE使用效率就成了一个迫切需要解决的难题。目
面向服务的体系结构以其松耦合特性在软件架构领域起着越来越重要的作用。它是一个组件模型,它将应用程序的不同功能单元封装为服务,通过这些服务之间定义良好的接口和契约联
日益增长的海量数据使得信息集成日益重要,数据存储的异构性成为一个热点研究问题。信息集成技术有很多现有的方法,本文使用了基于Mediator和Wrapper机制的方法实现了信息集
多媒体信息已经成为了网络重要的传输内容,而流媒体技术凭借其自身的优势在网络上得到了迅速发展。目前主流的流媒体系统主要有两大类:基于P2P技术的和基于CDN技术的。P2P技
本文研究了时态XML的数据模型,以及基于此数据模型创建了索引模型,通过创建索引优化了基于时间的查询。本文所做的主要工作和贡献包括: 论文提出了一个时态XML数据模型,该模型
远距离射频识别技术是一项新兴的非接触的自动识别技术,与其它自动识别技术相比,该技术具有识别距离远、速度快以及抗干扰能力强等优点。本文是根据某军事区应用环境需要,为
随着社会经济蓬勃的发展,社会经济形态和社会结构形态正发生着巨大的变化,即从工业经济和工业社会向知识经济和知识社会的转变。21世纪是知识经济时代,企业管理也正在由对实
互联网络的广泛应用带来网络安全问题日益受到大家的重视,相关的防御技术成为该领域研究的热点。由于分布式系统拒绝服务攻击(DDoS)者利用目前IP协议的不足、源地址欺骗和变
笔式用户界面作为后WIMP界面的一个主要形态成为了研究的热点,它基于纸笔的隐喻,提供给人们自然高效的交互方式。现实生活中人们大量地使用纸笔方式自然地表达和交流各种信息
分组密码设计技术能够为数据传输提供保密功能良好的加密算法,最具代表性的就是被选作AES的Rijndael算法。密码分析技术能对分组密码的安全性进行理论和实践的论证,代数攻击