论文部分内容阅读
随着信息处理技术的不断发展,各行各业都已经建立起了很多的计算机信息系统,积累了大量的历史数据,这些历史数据非常重要的。为了使数据能够有效地支持企业的日常运作和决策,就需要这些数据可靠无误,能够准确地反映现实世界的状况。纠正数据错误是避免错误决策、降低决策风险的重要环节,所以数据质量控制对于数据管理来说是必不可少的。以往的数据质量控制方面的研究绝大多数都是关注在数据库中的这种结构化的数据,然而由于客观因素,半结构化的文本数据却是企业保存历史数据的重要格式。针对上面的问题,本文对半结构化数据的数据质量控制进行了深入研究,并且设计实现了面向半结构化数据的数据质量控制系统。首先,对现有的数据质量控制相关研究进行了详细的分析,然后分析描述了半结构化数据的特点,根据其特点建立了面向半结构化数据的数据质量控制模型。该模型实现了半结构化数据的质量检测、问题数据处理以及数据质量评估功能,提出了该模型对半结构化类型数据的抽象方法,很好的解决了半结构化数据的异构问题。然后,详细介绍了该模型对不完整数据、不一致数据和错误数据三种类型问题数据的处理方法。针对不完整数据问题,本文在传统的不完整数据检测算法的基础上,按照字段在记录中的重要性的不同,提出了决定性字段,并且按照字段的重要程度来对需要检测的字段进行排序,减少了不必要数据的检测次数,从而提高了算法的检测效率;对于数据字段的错误数据,本文采用了基于业务规则的检测方法,为了解决规则库以及算法库的规模大带来的检索效率的问题,提出了规则库两级的分区检索的策略;对于数据字段之间的不一致数据问题,本文采用了基于正则表达式的不一致数据的检测方法,很好的解决了不一致数据问题。本文最后,设计并且实现了面向半结构化数据的数据质量控制系统,并将其应用到了海洋数据环境中,通过应用验证了系统的可用性和有效性。