不一致数据的查询处理

来源 :复旦大学 | 被引量 : 4次 | 上传用户:yongz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
违反完整性约束的数据叫不一致数据。虽然完整性约束被用于防止不一致已经很长时间了,但由于各类原因,不一致数据仍然普遍存在于多类现实应用中。这些应用不单单包括数据整合、数据交换、数据挖掘、数据抽取、科学数据管理、传感网络等关系数据应用,还包括XML网络信息交换和集成等。不一致数据蕴含着错误信息,在这样的数据库上回答用户提出的查询,得到的结果也可能是错误的。本文在保持信息准和全的前提下,从语义层面重新思考了不一致数据上的查询结果的确定性、可信性及其价值,针对关系数据,提出了一种带标记的不一致数据表示模型。根据这个模型,不一致性被看作是数据的一个属性,并能使用标记符号加以说明,也就是说,所有数据库及其查询回答的单元值上都可以附上0到多个标记,如果没附上任何标记,该单元值可信,反之不可信。为了在查询结果中正确地保持标记的语义,本文还定义了该模型上的7种基本查询操作、处理规则及其语义。并证明了整个研究方案的正确性和完备性。本研究方案把不一致的认定细化到属性级别,从而避免了信息丢失。上述模型及其上的查询操作要能真正在实际中得到应用,需要一个可以兼容一致数据模型及其查询处理的实现方案,以便能在不影响传统数据管理和查询的基础上,实现不一致数据的管理和查询处理。本文采纳了基于查询重写的实现策略。在函数依赖和综合约束两个范围内,对任意类型的查询,提出了其重写算法,并针对不同的应用环境,提出了不同的重写算法优化方法。并在人造数据和TPC-H数据上开展了丰富的实验。实现了其Demo系统。XML数据模型复杂,语法灵活,缺乏约束方面的严格规范,并常用于数据交换和数据集成,因此XML文档中的不一致问题甚至比关系数据更为严重。本文采用基于修复的数据查询处理方法来计算可信的查询结果,其核心是寻找不一致XML文档的最优修复。但求解最优修复是一个NP完全问题,特别是当XML文档同时违反函数依赖约束和主键约束时。本文提出一个基于代价模型,能同时解决置等和置不等约束,且可以在多项式时间内完成的启发式修复求解算法。该算法首先借助索引表,在一遍扫描原始XML文档的情况下,寻找不一致数据集,然后为每一类约束的不一致数据集构造候选修复,同时计算其修复代价,最后启发式地求解一个代价最小的修复方案。实验证明,该算法的时间复杂度不超过冲突类的3次方,即便是不一致数据大量、噪声比例大、且涉及多类语义约束时,也能较快地完成修复。
其他文献
概述了静电纺丝技术的原理及其在生物性纳米复合材料制备过程中的作用。该技术可将多种材料以不同的方式复合到同一根纤维中,使得纤维又增添了多种新的功能,因此其在多功能复
<正>2004年6月-2008年1月,笔者采用自拟益气通脉汤治疗气虚血瘀型胸痹患者40例,取得较好疗效,现报道如下。1临床资料1.1一般资料选择2004年6月-2008年1月间本院门诊患者中符
1水库蚁害情况 我镇现有水库、山塘143座.总蓄水量430万m^2,其中,小(Ⅰ)型水库1座,小(Ⅱ)型水库5座。自2001年以来,对小(Ⅱ)型以上6座水库进行了白蚁检查与防治,危害水库大坝的白蚁种类主
由于铸造多晶硅生长工艺特点,硅晶体自发成核以(111)晶向为主,同时Fe杂质的分布在铸锭的头部和尾部高、中间低;硅片少子寿命呈现头部和尾部低、中间高的分布趋势。大量杂质分
目的 :探讨非创伤性充填治疗 (ART)技术在幼儿园现场控龋的可行性及效果。方法 :采用 ART技术对幼儿园 2 7名 2~6岁幼儿 71颗乳磨牙牙合面龋洞现场充填 ,半年后复查。结果 :充
采用以次亚磷酸钠为还原剂的酸性化学镀镍液对人造金刚石进行表面镀覆。用扫描电镜及能谱分析表征金刚石表面镀镍前后的形貌和物相;用金刚石单颗粒抗压强度测定仪测试镀镍前
通过在基础釉中添加金属氧化物MnO2、CuO和V2O5,在随炉冷却的烧成制度下,成功制备了银色金属光泽釉。采用L9(33)正交实验的方法研究了MnO2、CuO、V2O5加入量对釉面效果的影响
在可再生能源发电和电动汽车技术领域,发展能量密度高、安全可靠、绿色无污染的锌空气电池具有重要社会经济价值。但锌空气电池负极存在的问题严重影响了电池的使用性。本文
<正>2003年6月-2008年6月,笔者运用补阳还五汤加味治疗顽固性头痛48例,并与以维脑路通注射液治疗的45例做对比观察,现报道如下。1临床资料全部病例来源于本院门诊和住院患者,
季度用电量同时具有增长性和季节波动性的二重趋势,这使得季度用电量的变化呈现出复杂的非线性组合特征。对于这种具有复杂的非线性组合特征的时间序列,直接应用GM(1,1)灰色