不完整数据上的查询处理技术

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：cderfvbgtyhnmj

【摘要】

：

随着大数据时代的到来,数据质量的重要性日益凸显。信息数字化过程中的种种错误,导致了数据库中的信息无法反映真实世界的完整面貌。当前的众多报告表明不完整数据会引起计算

【作者】

：

刘永楠

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

数据质量数据可用性数据完整性查询处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据时代的到来,数据质量的重要性日益凸显。信息数字化过程中的种种错误,导致了数据库中的信息无法反映真实世界的完整面貌。当前的众多报告表明不完整数据会引起计算结果的偏差,进而对商业的决策和民众的生活造成广泛的不良影响,给查询的处理带来了挑战。因此设计不完整数据上的高效的查询处理技术,对弱可用数据进行有效使用至关重要。当前的数据可用性领域对于不完整数据上的查询处理的研究缺乏体系,这方面的研究面临极大的挑战。首先,缺乏统一的数据完整性评估模型,无法给出数据集合完整程度的真实评估结果。其次,面对无法修复全部缺失值的数据集合时,当前缺乏根据用户的需求,在查询结果中给出尽可能完整的信息的方法。第三,在不完整数据集合上,同时考虑完整信息程度和聚集目标时,当前缺乏在一定的质量误差条件下,给出高质量的查询结果的方法。第四,当前缺乏快速地估计查询结果的完整程度的方法,无法根据不完整数据的完整性特征,给出估计结果。为了有效地应对上述由不完整数据带来的挑战,在本文中,尝试在不进行数据修复的情况下,根据关系型数据的特点,提出不完整数据上的查询处理技术,提供具有较高完整性的查询结果,提出一系列的理论和对应的高效算法,解决了不完整数据上查询处理的一些关键问题,主要的研究内容可以进行如下概括。(1)在本文中,研究了数据完整性的评估模型和算法。为了克服当前对完整性的评估依赖具体查询,低估了数据中的有效信息含量的局限性,形式化地定义了基于函数依赖的数据完整性评估模型。这个模型可以从属性、元组和关系三个粒度,来度量所包含信息的完整程度。进而形式化了在此模型下的数据完整性评估问题,给出了这个问题的时间复杂性下界。然后,给出了结合函数依赖特点,用于完整性评估的完整性伪闭包。通过分析完整性伪闭包的性质,建立了完整性传播图来评估数据完整性。基于完整性传播图,给出了达到问题下界的高效评估算法。最后在真实数据集合与合成数据集合上的实验验证了算法的有效性和高效性。(2)在本文中,研究了基于支配集合的不完整数据的查询处理问题,并给出了高效的处理方法。当数据中的缺失值无法被修复,或者修复算法耗时较长时,可以根据用户的需求,选择一个完整程度较高,在用户感兴趣的属性上给出完整信息,并且规模较小的子集合,这个子集合被称为支配集合。基于这个集合,可以有效地处理查询,高效地给出查询结果。本文首先形式化了支配集合的选择问题,证明了其判定版本是一个NP-完全问题;其次,设计了高效的支配集合选择算法,通过理论分析,证明了所抽取的数据集合的良好性质。然后,基于支配集,给出了进一步处理查询的方法。最后,通过真实数据和合成数据上的实验,验证了所提出的方法的有效性和高效性,并研究了不同参数对于算法的影响。(3)在本文中,研究了带有完整性约束的不完整数据的查询处理问题,并给出了高效的处理方法。在不完整数据集合上,查询结果往往无法包含足够的信息。为此,提出了一种适用于不完整数据的查询结果的形式。在一定的质量误差范围内,对于返回的查询结果,既能在某些用户感兴趣的属性上给出较完整信息,又能在整体上近似地满足聚集性质,使之成为一个高质量的整体。首先,形式化地定义了这一问题,并证明了其判定版本是一个NP-完全问题。然后,根据用户是否明确地给出对于元组的选择策略,分别基于贪心策略和加权抽样方法,设计了两个多项式时间的近似算法。对于两个算法的时间复杂性,以及所给出的查询结果的质量给出了理论分析和证明。最后,通过实验验证了所提出的两个近似算法能够高效地给出高质量的查询结果,并且两个近似算法具有良好的可扩展性。(4)在本文中,研究了不完整数据上查询结果的完整性估计问题,并设计了高效的估计算法。当前缺乏对于整体数据集合的完整性信息的刻画方法,可以通过抽取一个反映整体数据集合的完整程度的特征数据集合,来进行查询结果的完整程度估计。为此,提出了特征数据集合应有的两条性质:覆盖性和完整度,分别从属性和属性值角度,给出了对于数据集合所容纳的完整信息的衡量。为了满足这两条性质和不同的需求,定义了6类不同的完整性特征数据集合,证明了上面6类特征数据集合的抽取问题的判定版本都是NP-完全问题;然后,设计了优化解规模猜测策略和误差分配策略,来充分利用不同完整程度的元组,近似地满足以上两个重要的性质。基于均匀抽样和上述策略,给出了抽取完整性特征数据集合的近似算法,它能在多项式时间内,高效地抽取近似满足这两个性质的特征数据集合。然后基于抽取的完整性特征集合,给出了高效的完整性估计的方法。通过理论分析,证明了估计算法具有良好的性质。最后,通过真实数据集合与合成数据集合上的实验,证明了所提出的完整性估计方法,能够高效地估计查询结果的完整程度。

其他文献

基于单片机的办公桌智能垃圾桶系统设计

为了实现办公桌上自动感应垃圾桶,给办公人员创造更舒适便利的办公环境。本设计以单片机为控制器,进行数据采集并实时处理。MH-B型的红外测距传感器组成人体感应模块,数据被

期刊

单片机红外测距传感器PWM舵机驱动

建筑工程施工阶段全过程造价管理的控制

结合实际,对建筑工程施工阶段全过程造价管理控制的要点内容进行研究。先是分析全过程造价管理的内涵,其次对全过程造价管理的应用意义进行总结分析。其次对当前全过程造价管

期刊

建筑工程施工阶段全过程造价管理控制

供应链库存策略的优化与协调

供应链库存策略的优化与协调是供应管理的重要研究课题，也是提高供应链绩效的重要手段。本文基于经济环境的演变及供应链管理理论，分析了供应链库存策略优化与协调的必要性和必

期刊

供应链库存策略博弈优化集成优化协调机制

浅析PLC控制交流电动机在恒水位系统中的应用

结合S7-200PLC控制SAMCO—i IF系列通用变频器的恒水位系统应用。分析了PLC在交流电动机变频调速中的作用以及PLC与通用变频器连接使用的基本方法。

期刊

可编程逻辑控制器通用变频器变频调速控制系统

邯邢地区白涧矽卡岩型铁矿成因矿物学研究

邯邢地区是我国重要的矽卡岩型铁矿矿集区,近几年随着深部找矿工作的开展,探明了一批以白涧铁矿为代表的深部隐伏式矿床,然而矽卡岩型铁矿普遍存在复杂性和多成因性,对于区内

学位

白涧铁矿接触交代岩浆热液磁铁矿成因矿物学

杭州国际论坛关注亚太地区职业教育的发展及趋向

11月17～19日，由中国联合国教科文组织全国委员会及联合吲教科文组织国际农村教育研究与培训中心、国际职业技术教育中心、亚太国际教育与价值教育联合会等共同组织的“国际职业

期刊

职业教育与培训职业技术教育与培训农村职业学校亚太地区

隐匿性乙型肝炎病毒感染的发生机制

<正>目的成人中转氨酶正常同时乙型肝炎病毒(HBV)血清中免疫学标志(HBVM)阴性者有不少被证明为HBV携带者或有病毒复制明显并有活动性肝脏病变。就肝病门诊及住院患者进行了此

会议

再析历史中的偶然与必然

历史认知模式可以建立在以“偶然”和“必然”为最简单的范畴基础上。偶然性的认识论意义在于，人们不可能对所有的既往历史事实进行确定的、规律性的解释，因此许多实在性要素便

期刊

历史认识偶然必然辩证关系

营林生产过程中出现的问题及应对策略

近年来，随着我国林业建设事业的快速发展，营林数量和质量都有了很大程度的提高。但是营林生产过程中依然面临着一些问题与不足。本文将对这些问题进行分析，并在此基础上就如何应

期刊

营林生产问题对策研究

南京市流动人口犯罪的调查与思考

文章在剖析南京市流动人口犯罪特点(包括犯罪成员构成特点和犯罪成员行为特点)的基础上,从经济、社会、文化三个层面对流动人口犯罪的原因进行了结构分析.

期刊

流动人口犯罪特点犯罪原因

不完整数据上的查询处理技术

其他学术论文