多表数据的不一致性检测与修复方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:huhuhuhuanguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纵观数据质量的不一致性研究历程,条件函数依赖、条件包含依赖、微函数依赖及其扩展相继被提出,这些方法无法解决实际应用中多表不同属性之间整体或局部的不一致性问题。本文提出一种基于主数据和扩展微函数依赖的不一致性检测方法,以及基于置信度和熵的不一致性数据修复方法。为解决多表不同属性之间整体或局部的不一致性检测问题,本文提出扩展微函数依赖,该依赖是微函数依赖的扩展。并且引入主数据来明确其中的错误数据,解决多表不同属性之间的不一致性传播问题。本文提出的基于主数据和扩展微函数依赖的多表数据不一致性检测方法,是以主数据修复为导向的不一致性属性检测。该方法是将属性与主数据进行条件包含依赖检测,满足该依赖的记录才进行微函数依赖检测,不满足以上任意检测规则的数据即为不一致性数据。为解决扩展微函数依赖以时间代价换取检测准确性的问题,本文提出增量检测方法。该方法识别出受数据或检测规则增删改影响的数据,并对这些数据进行不一致性检测,可有效提高检测效率。本文不仅提出多表不同属性之间整体或局部的不一致性检测方法,还对扩展微函数依赖规则的自动挖掘及完整性检测方法进行了研究。为保证扩展微函数依赖规则的一致性、正确性、完整性,本文提出用于依赖规则自动挖掘的e CTANE算法,并提出用于规则完整性检测的FHG方法。为解决多表中不一致性数据的修复问题,本文提出基于置信度和熵的自动修复方法。该方法主要对置信度大于等于置信度阈值或熵小于等于熵阈值的数据进行修复,可通过主数据和扩展微函数依赖规则确定修复值。剩余的不一致性数据由人工修复后再次被检测。根据上述方法,设计并实现了多表数据的不一致性检测与修复系统,本文对系统的架构、业务流程、功能模块、关键技术、实现效果进行了详细的描述。系统在自动化的检测和修复流程中添加了人工复核的流程,保证数据不一致性检测和修复的准确性。
其他文献
7月20日至21日,国家宗教事务局2017年宣传通联工作会议在黑龙江省哈尔滨市召开。会上,在《中国宗教》杂志发行征订工作中做出突出成绩的广东省民宗委、山东省宗教局、北京市
患者,男,37岁,主因间断性心前区疼痛伴大汗半年,加重2个月于2008年5月28日入我院,其心前区疼痛常于晨起或夜间睡眠时发作,伴大汗,最多时每天可发作4次,每次持续10分钟左右,服硝酸甘油
患者,女,19岁,因咳嗽、咳痰1周来院就诊,患者意识清楚,呼吸尚平稳,口唇无发绀。咳嗽、咳白色黏液痰,活动后感轻度呼吸困难。查体:体温36.8℃,脉搏80次/min,呼吸20次/min,血压90/60mmHg(1mmHg=
近年来,我国甜樱桃栽培面积迅速扩展,总产量也逐年递增,樱桃的贮藏、保鲜等商品化处理技术也日益提升。本文从甜樱桃的采摘、预冷、分级、贮藏保鲜、包装五个环节综述了近年
在解决数学实际问题的过程中,七年级学生将进入由算术方法到方程思想的过渡,而在构建方程模型寻找等量关系时,七年级学生往往是有畏难情绪的。教材中本节内容涉及的5个问题情
目的分析甲状腺手术发生呼吸道机械性梗阻的原因,总结管理对策。方法方便选取2006年1月—2016年10月该医院甲状腺手术后呼吸道机械性梗阻的26例,作为病例组,同期甲状腺手术3
影响食品质量安全因素的复杂性与即时性、食品加工及交易的频繁性以及食品质量安全的强隐藏性等,导致食品安全监管存在不完全监管的"先天缺陷"。但由于其职能对应的是显性、急
近年来,茶叶花色苷因具有清除自由基、降“三高”、抗炎和抗癌等多种保健功效而逐渐成为茶多酚组分研究中的热点。但白茶花色苷的研究尚处于空白阶段,故本研究建立了福建白茶
习近平总书记在十九大报告中提到“绿水青山就是金山银山”,强调了林业的重要性。然而在实际的林业发展过程中,依然存在着一些问题,本文围绕森林生态旅游对林业可持续发展的
随机不确定性是事物的固有属性,在工程中不能消除。机械结构中广泛存在的随机不确定性严重影响结构的安全与可靠性。在工程中,部件或系统的性能函数往往是隐函数,导致传统可