论文部分内容阅读
现实世界面临着指数级增长的大数据,而现实世界的数据质量通常比较低,从而严重影响了数据分析挖掘结果的质量,带来了不可靠的结果。数据质量降低有多种原因,包括信息提取器的低效,信息产生不精确,以及不同数据源的异构数据表达方式等。由这些原因带来的脏数据,每年都使得各种机构和企业花费数十亿美元。数据清洗是解决数据质量问题的一种行之有效的方法,是数据有效使用过程中非常重要的一个步骤。数据清洗过程包含两步,即发现数据错误以及修复数据错误,以使数据与数据质量规则集一致。基于规则的数据清洗技术是数据清洗中的一类重要方法,在其中数据质量规则扮演着重要角色。数据质量规则集是一种声明式的用来确定有效的或正确的数据值的方法,一个违反则是不满足这些规则集的数据实例。数据质量规则应该能够发现比语法错误更复杂的语义错误,并且最好能够修正它们。基于规则的数据清洗方法一般受用户偏好,因为规则是可理解的,可以简便地修改和细化,且可以方便地增加领域知识。然而,用表达能力更强的语言来表示的数据质量规则更难被发现,且更难被自动地应用于数据清洗系统中。本文针对实体识别、错误检测和数据修复等数据清洗中的重要步骤提出三类规则挖掘算法。具体创新点如下。实体识别是数据清洗中的重要任务,用来检测描述同一现实世界实体的不同数据项。传统的方法使用相似度度量和聚类方法来发现某一实体的不同数据项,并且假设属于同一实体的数据记录之间的相似度比其他数据的相似度要大,然而这种假设并不对所有数据记录都成立。由于传统方法性能较差,最新的方法是对数据项中的属性建立规则。然而,这些方法使用的属性数不够,且忽略了共同属性和空属性值,于是影响了实体识别的质量。针对这个问题,本文定义了一个多属性带权重的规则系统(a multi-attributes weighted rule system,MAWR),它会检查所有的属性值来完成数据项到现实世界实体的映射。然后,本文提出了一种比较有效的基于此规则系统的规则产生算法,并且基于产生的规则,提出了一种实体识别算法(MAWR-ER),它能够有效且高效率地从数据集中发现实体。实际数据上的实验结果表明了本文提出的方法是快速有效的,并且比现存的实体识别方法有更强的鲁棒性。数据修复是数据清洗中的关键问题,用来修正数据中的错误。传统方法基于数据依赖来检查数据中的错误,但是这种方法不能改正错误发现错误值,并且更不幸地是它不能修正错误值。为了克服这种局限,当前方法定义了修复规则,并基于此来修复错误。然而,所有现存的数据修复规则都是由专家提供的,这需要大量的时间和精力。而且,基于规则的修复方法需要外部的验证过的数据或者人工验证,否则,这种方法就是不完整的,且只能修复一小部分错误。因而,本文定义了基于相似度匹配的带权重的匹配改正方法(WMRRs),来发现更多错误。在规则发现中不依靠人力或可靠外部数据源是现实的,因为人力资源成本较高,而可靠外部数据源并不总是可获得的。因此,本文提出了新的算法来从已有的脏数据中自动发现规则,还提出了自动发现规则不一致的算法,与现有的依靠专家知识来解决不一致性的方法有本质上的不同。然后,本文提出了基于规则的自动数据修复算法,它可以发现大量的错误并修复之。我们提出的方法能够全自动地执行可靠且正确的数据修复,且仅基于现有数据,不依靠主数据或人工验证。它能够在不损失修复的精确度的情况下获得更高的召回率。在真实数据和生成数据上的实验结果表明,本文提出的方法可以从现有的脏数据中发现有效的WMRR规则,且比现存的方法具有更高的精度。数据采样是一种主要的数据约简方法,它从整个数据中选出一个具有可行大小的代表性数据样本进行处理,这对于加快大数据分析非常有利。在数据修复环境中,已经提出了采样作为近似技术,可以通过权衡准确性和效率来从大型数据集中快速发现规则。带权重的匹配修复规则可以达到高精度的修复。然而,这种的方法需要扫描整个数据集来发现详细的数据修复规则集合,这对于交互式应用来说时间开销过大。针对大规模数据,本文提出了基于抽样的规则发现算法,用于发现近似的带权重的匹配修复规则。本文提出了抽样算法用于高效的抽取适于发现近似带权重匹配修复规则的高可用性样本,还提出了基于近似规则的数据修复框架,用于从样本中高效率地发现近似规则。然后,满足一致性的近似规则从整个数据中高效地检测并修复错误。因此,通过准确修复数据错误中可容忍的一部分,可靠且高效地完成部分数据修复。尽管本文提出的方法一定程度上牺牲了规则的完整性,但是保持了修复的正确性,并大幅度地提高了修复的效率。我们的方法依靠部分可靠的数据修复来降低错误的比例,由此能够处理现如今越来越大的数据集。综合实验结果验证了我们提出的方法的高效率,并证明了近似规则在数据修复方面的良好性能。