基于时效约束的关联数据清洗方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zhangwenjiekao1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据已经成为了核心的战略资源之一,无论是社会进步还是企业成功,越来越依赖于对数据的分析。数据一致性和数据时效性作为数据质量管理中重要组成部分,一直是相关领域的研究重点。数值数据在医学和金融等领域内广泛存在,提高数值数据的数据质量无论是作为企业数据储备、高质量数据分析的基础还是用于开发相关应用,都有足够广泛的应用前景。改善数值数据的一致性与时效性一直是领域内的研究热点和重点。数据的时效性错误和一致性错误并不是独立存在的,两个问题可能会混合起来形成更加难以处理的数据错误。迄今为止已经有了一些研究成果,但是这些成果对于数值数据的清洗能力尚显不足。规则约束是数据质量管理领域的一项重要技术。现实世界中数据之间存在着关联关系,基于时效规则的关联数值数据的清洗作为领域内热点问题,不仅有重要的理论意义,同时也有广泛的应用价值。本文的主要工作如下:(1)提出基于关联内容的数值函数依赖。在分析了数值函数依赖的优点和局限性后,本文通过分析数据之间存在的关联关系,提出了一种基于关联内容的数值函数依赖,对其定义、规则发现方法等做出了说明;针对使用基于关联内容的数值函数检测到的不一致数据,提出了一种数据一致性清洗方法;(2)提出了时效约束与基于关联内容的数值函数依赖混合规则的数据清洗方法。证明本文提出的基于混合规则的最小代价问题是一个NP完全问题;提出了一种基于混合规则清洗数据的框架,包括错误数据检测和错误数据修复;(3)在多个真实数据集和人工数据集上,通过与传统规则约束清洗方法进行对比实验,验证本文提出清洗框架的效果和性能。实验结果证明本文提出的方法相比传统的规则约束具有更好的清洗效果。
其他文献
HIV-1侵染细胞的分子机器为位于病毒颗粒表面的由三个gp120和三个gp41糖蛋白质通过非共价相互作用构成的包膜三聚体,其中,gp120负责与细胞表面受体CD4以及辅助受体CCR5/CXCR4的结合,而gp41则负责对靶细胞膜的插入以及病毒膜和细胞膜间的膜融合。大量的结构生物学和生物化学研究表明,gp120的构象变化及由此导致的构象多样性在HIV-1侵染细胞以及逃避宿主免疫监控等方面起着关键作用
本论文由三章构成:第一章为木紫珠(Callicarpa arborea)地上部分化学成分及生物活性研究;第二部分为黄荆(Vitex negundo L.)茎叶化学成分及生物活性研究;第三章综述了2019年国内外对二萜类化合物抗炎及与炎症相关疾病的研究概况。本论文通过利用现代分离技术,如正相硅胶、反相硅胶、羟丙基葡聚糖凝胶、高效液相色谱,结合NMR、HRESIMS、X-ray单晶衍射等结构鉴定手段,
随着我国老年人口数量的不断增多,老龄化水平加深所产生对社会的影响已成为急需解决的问题。从2000年起,我国正式进入老龄化社会,是社会上较早进入老龄化社会的国家之一。随着老年人年龄的增长,身体免疫能力降低,健康水平下降,相对于其他年轻群体对医疗卫生资源的需求更大,催生着老年人对医疗资源的需求不断增长。近年来,我国医疗卫生事业取得了显著的进步,医疗卫生资源数量能够满足大部分人的需求,据《2018年我国
Micro RNAs(miRNAs)为长约18~25nt的内源性非编码RNA,在卵巢中参与细胞增殖凋亡、类固醇激素生成与分泌等生理过程。课题组前期研究发现miR-27b-3p在鹅卵泡颗粒层中表达量很高,并且随着卵泡发育逐渐升高,推测miR-27b-3p可能在调控卵泡颗粒细胞功能方面具有重要作用。因此,本研究以鹅颗粒细胞为试验材料,探究miR-27b-3p在颗粒细胞类固醇分泌方面的作用及其调控机制,
红棕杜鹃(Rhododendron rubiginosum Franch.)主要分布于我国四川西南部、云南西北部至东北部以及西藏东南部等地,通常生长在海拔2500-4200m之间的林隙中,分布广泛,常成群落中的优势种,是西南高原山地生态系统的重要组成成分,具有重要的生态学和系统学研究价值。目前对该物种的研究主要集中在叶的化学成分和耐热性等方面,但群体遗传学、多组学以及物种适应性方面的研究几乎处于空
目前,我国优质饲草短缺,尤其是优质蛋白饲料资源严重不足,合理优化利用饲草资源以及寻找新型优质蛋白饲料,是促进畜牧业健康发展,缓解饲料短缺的关键措施。燕麦作为一种产量高、适应性强的禾本科牧草,本试验以燕麦为材料,利用甲酸以及乳酸菌添加剂在两种水分条件下青贮改善燕麦品质,以及利用杂交构树、饲料桑与燕麦在不同比例下混合青贮,提高青贮饲草的蛋白质含量、发酵品质等,以及增加构树和饲料桑等高蛋白饲料资源的利用
植物叶片的解剖结构发育与光合性能不仅受其自身光环境的影响,而且还受到其他部位光环境的影响,即光依赖性系统调控。在玉米大豆带状复合种植模式中玉米普遍生长于异质性光环境中,本研究中选取了两个生理特性不同的玉米品种,以研究植株两侧光异质性对新发育叶片的光合性能以及解剖结构的影响,分析了不同品种玉米对光依赖性系统调控的响应差异,为玉豆模式中玉米品种的选育及田间配置的优化提供理论依据。结果表明,在异质性光下
异喹啉类生物碱是一类含氮杂环化合物,具有显著的药理活性。作为其重要组成部分的阿朴菲类生物碱在植物中具有较为广泛的分布,阿朴菲类生物碱不仅具有独特的化学结构,且具有多种药理活性。(-)-Misramine(2,3)是从埃及蔷薇属植物中分离提取的骨架极其独特的阿朴菲类生物碱,研究发现其在神经系统控制领域具有很显著的生物活性,且有一定的抗病毒活性,鉴于此类化合物具有的以上优良活性,和其具有四氢异喹啉并环
现代卫生填埋场衬垫系统往往由压实黏土(CCL)、土工膜(GM)、土工织物(GT)、土工格栅(GG)以及土工复合材料等组成。这些防护材料相邻界面的抗剪强度小于垃圾填埋体本身的抗剪强度,这使得在受到相同剪切应力时,土工合成材料界面会率先发生滑移来消耗系统中的剪力。因此,在已发生的垃圾填埋场失稳案例中,大部分是沿着衬垫系统中土工合成材料薄弱界面发生滑移破坏。目前国内外研究学者对衬垫系统中CCL-GM界面
因化石燃料的使用和开采造成的能源与环境问题日趋严重,氢能作为一种清洁、无污染的能源被认为是替代化石燃料的最佳选择,而利用半导体光催化分解水制氢气是解决能源危机及环境污染的重要措施。由于硫化物固溶体对可见光具有较强的吸收能力及较好的光催化产氢活性而被广泛研究。本文主要围绕硫化物固溶体的改性及光催化制氢性能进行研究,具体分为两个方面:1.以无毒的红磷作为磷源,以一乙醇胺作为溶剂,通过简单的低温溶剂热法